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译 痢 序 


很 多 人 都 认为 网 络 运 维 是 个 苗 差事 。 的 确 ， 干 这 行 不 仅 要 有 广 而 全 的 专 
业 知 识 沉 深 ， 还 需要 在 面 对 各 种 突 及 情况 时 做 到 有 条 不 率 地 沉着 应 对 。 
如 此 ， 经 验 就 成 为 了 相关 从 业 人 员 的 制胜 法 宝 。 


当 我 第 一 次 翻 开 这 本 书 时 ， 我 异常 兴奋 。 这 本 书 可 以 说 是 实 实在 在 的 经 
验 谈 ， 虽 说 这 些 经 验 并 非 十 分 “前 沿 * 和 “先进 *"， 但 这 些 技术 在 实际 生产 
环境 非常 接地 气 。 此 类 经 验 谈 未 曾 在 国内 成 书 出 版 ， 只 是 只 言 片 语 地 零 
散 分 布 在 网 上 。 可 以 说 ， 这 本 书 的 出 版 不 仅 让 读者 看 到 了 作者 多 年 经 验 
40 
实践 。 


从 编排 上 看 ， 我 不 得 不 佩服 原 书 作 者 和 编辑 的 巧妙 心思 。 这 本 书 不 但 能 
够 围绕 实际 运 维 的 需要 ， 还 能 从 设备 / 环境 搭建 、 性 能 优化 、 高 效 管理 
以 及 对 未 来 的 展望 ， 成 体系 地 归纳 出 重点 知识 。 书 中 丰富 的 各 类 技 巧 
及 和 条例， 不 仅 对 于 初学 者 及 有 经 验 的 网 络 架 构 师 难能可贵 ， 而 且 也 会 给 
网 络 架构 师 带 来 英 大 的 局 发。 


本 书 还 就 架构 设计 方面 ， 针 对 常见 流程 提出 了 独到 的 见解 。 例 如 本 书 坚 
持 使 用 开源 软件 ， 以 方便 管理 为 主旨 来 定义 工具 ， 以 完善 的 故障 保护 机 
制 来 应 对 各 种 灾害 ， 重 视 性 能 与 成 本 之 间 的 平衡 等 。 因 此 ， 本 书 不 仅 单 
2 
介 值 观 。 


在 本 书 的 翻译 中 ， 我 得 到 了 很 多 朋友 ， 特 别 是 图 灵 编 辑 的 帮助 和 支持 ， 
在 此 表示 深 深 致谢 。 但 限于 我 自 喘 能 力 有 限 ， 书 中 难免 有 错误 及 下 漏 ， 
如 果 读 者 发 现 了 什么 问题 ， 或 者 有 什么 见解 、 技 术 想 要 交流 ， 欢 迎 访 问 
图 灵 社 区 搜索 本 书 的 名 称 ， 提 交 勘 误 ， 或 者 发 E- 

mail (Philip.Z@foxmail.com) 与 我 联系 。 






































张 多 
2014 年 于 西安 


当今 社会 ， 社 交 软 件 、 博 客 、 购 物 网 站 等 丰富 多 彩 的 网 络 服务 充斥 着 我 
们 的 生活 ，E-Mail 和 聊天 工具 更 是 大 家 第 用 的 交流 手段 。 可 以 说 ， 互 联 
网 已 经 成 为 了 我 们 生活 中 不 可 缺少 的 一 部 分 。 笔 者 也 不 例外 ， 每 天 都 在 
0 

















然而 ， 从 笔者 的 角度 来 看 ， 与 享受 网 络 服务 的 终端 “用 户 ” 相 对 应 的 就 是 
服务 的 “提供 者 ”。 没 错 ， 笔 者 的 工作 就 是 网 络 、 服 务 器 的 搭建 和 运营 管 
J 


10 年 前 ， 说 到 网 络 和 服务 器 ， 第 一 反应 就 是 这 是 价格 昂贵 的 设备 ， 应 
该 不 是 一 个 能 够 简单 进入 的 领域 。 但 是 近 些 年 来 ， 随 着 在 PC 机 上 运行 
的 Linux、FreeBSD 等 类 UNIX 操作 系统 的 普及 ， 以 及 硬件 价格 的 降 

低 、 网 络 的 普及 ， 也 让 大 家 纷纷 在 家 中 建 起 了 服务 器 。 


这 样 的 情况 有 助 于 我 们 随时 获取 基础 设施 的 相关 信息 。 特 别 是 在 部 署 方 
式 和 Apache 守护 程序 的 配置 等 操作 方法 方面 ， 近 些 年 的 进步 可 谓 惊 
人 。 对 基础 设施 的 新 手工 程 师 来 说 ， 这 真是 个 方便 的 时 代 。 


然而 男 一 方面 ， 在 高 效 运 营 管理 的 实现 、 服 务 的 见 余 及 可 扩展 等 拉 术 上 
的 信息 和 技巧 还 远 远 不 够 。 


束 笔 者 而 言 ， 从 搭建 和 运营 数 合 、 数 十 台 乃 至 数 百 台 的 服务 器 系统 来 
说 ， 其 中 最 大 的 困难 束 是 缺少 见 余 和 可 扩展 方面 的 信息 。 当 时 笔者 还 没 
有 元 余 和 可 扩展 的 相关 知识 和 经 验 ， 完 全 不 知 该 如 何 下 手 。 而 且 想 到 为 
人 
To 


现在 回想 起 来 ， 当 时 的 想法 是 不 对 的 。 事 实 上 ， 运 用 开源 软件 和 常用 的 
设备 ， 即 可 搭建 兼 有 元 余 性 和 可 扩展 性 的 系统 。 但 我 们 回 过 头 来 看 看 ， 
当时 迟 迟 无 法 下 手 的 原因 完 竟 是 什么 呢 ? 难道 不 是 单纯 地 因为 “不 知道 
有 这 个 东西 关 不 知道 可 以 这 样 2 四 ? 


而 这 就 是 本 书 的 写作 动机 。 也 就 是 说 ， 本 书 的 写作 目标 就 是 为 读者 搭建 





























兼 有 具 见 余 和 可 扩展 性 的 基础 设施 提供 启示 。 


本 书 的 内 容 是 使 用 开源 软件 的 Hatena 公司 和 Klab 公司 的 工程 师 团队 的 
经 验 总 结 ， 与 实际 运作 的 系统 密切 相关 。 这 些 信息 都 具有 实践 音义， 而 
非 念 令 其 谈 。 系 统 是 一 个 体系 ， 是 由 各 个 要 素 相 关联 构成 的 。 本 书 中 不 
仅 对 每 个 要 系 的 拉 术 都 进行 了 详细 的 说 明 ， 还 重点 介绍 了 各 个 技术 要 素 
之 间 的 关联 。 但 是 本 书 并 不 是 一 本 技术 手册 ， 所 以 并 没有 逐步 对 安装 顺 
序 进行 说 明 ， 而 且 也 不 是 说 按照 书 中 的 命令 去 运行 就 一 定 能 得 到 什么 。 
本 书记 述 的 是 笔者 在 实际 的 开发 现场 所 进行 的 思考 、 所 面临 的 问题 ， 以 
及 为 解决 问题 所 做 的 努力 和 成 果 。 和 希望 在 读者 接 下 来 设计 、 搭 建 和 运营 
基础 设施 时 ， 本 书 的 内 容 能 够 为 你 提供 参考 。 














作者 代表 三 濑 正明 


本 书 概述 
本 书 由 6 章 组 成 。 
第 1 章 服务 器 及 基础 设施 搭建 入 门 ..…. 元 余 及 负载 分 流 的 基础 


第 2 章 ”优化 服务 器 及 基础 设施 的 拓扑 结构 .…... 见 余 、 负 载 分 流 、 噩 
性 能 的 实现 


第 3 章 ”进一步 完善 不 间断 的 基础 设施 ..…...DNS 服务 器 、 存 储 服务 


1 ~ 3 章 的 主题 是 如 何 设计 兼 具 宛 余 性 以 及 可 扩展 性 的 基础 设施 。 
每 一 章 都 是 相互 独立 的 ， 但 是 在 “从 较 小 的 系统 出 发 来 拱 建 基础 设施 "这 
一 大 流程 中 ， 它 们 又 是 相互 关联 的 。 建 议 首先 通读 1 ~ 3 章 以 把 握 整 个 
流程 ， 然 后 再 回 过 头 来 细 读 感 兴趣 的 章节 。 


第 4 章 性能 优化 、 调 整 ..….Linux 单个 主机 、Apache、MySQL 





第 4 章 的 主题 是 提升 性 能 。 


通过 服务 器 的 负载 均衡 来 提升 整个 系统 的 性 能 。 在 这 一 过 程 中 ， 单 个 服 
务 器 的 性 能 优化 是 不 可 或 缺 的 。 第 4 章 将 针对 单个 服务 器 的 性 能 可 能 遭 
遇 的 瓶 贷 ， 对 其 界定 及 优化 方法 进行 介绍 。 


第 5 章 高效 运行 ...... 确 保 服务 的 稳定 提供 

第 5 章 的 主题 是 监控 和 管理 。 

随 着 服务 器 数量 的 增加 ， 运 营 成 本 也 不 断 加 大 ， 那 么 运营 成 本 将 会 成 为 
瓶颈 ， 进 而 就 可 能 导致 不 能 像 期 望 中 那样 扩展 基础 设施 了 。 换 名 话说， 
通过 各 种 办 法 在 最 大 程度 上 提高 运行 效率 ， 是 搭建 具备 可 扩展 性 的 基础 
设施 的 关键 。 第 5 章 将 以 笔者 身边 的 生产 环境 为 例 ， 来 说 明 如 何 提升 设 
备 的 运行 效率 。 














第 6 章 服务 后 合 ..….. 自律 的 基础 设施 、 稳 健 的 系统 
第 6 章 将 对 Hatena 公司 与 KLab 公司 的 DSAS 实际 运作 的 网 络 和 服务 器 
基础 设施 进行 介绍 。 


笔者 作为 基础 设施 团队 的 领 凑 人物， 除了 一 些 技术 性 的 内 容 之 外 ， 还 加 
入 了 前 面 章 节 中 未 能 介绍 的 细节 、 至 今 为 止 的 发 展 历程 ， 以 及 自己 作为 
基础 设施 工程 师 的 动机 和 心理 等 非常 有 趣 的 内 容 ， 可 读 性 很 强 。 





1.1 元 余 的 基 





1.2 实现 Web 服务 器 的 元 余 .……. DNS 轮 询 

















1.3 实现 Web 服务 器 的 元 余 .……. 通过 IPVS 进 和 











1.4 路 由 占 及 负载 均衡 的 见 余 























2.1 引入 反问 代理 





(Hatena) 


2.2 增设 缓存 服务 器 


2.3 MySQL 同步 .……… 发 生 故 障 时 的 快速 性 
2.4 MySQL 的 Slave + 内 部 负载 均衡 器 的 灵活 应 用 示例 ? 
量 高 速 的 存储 服务 器 
3.1 DNS 服务 器 的 元 余 
3.2 存储 服务 器 的 元 余 .……… 使 用 DRBD 实现 镜像 
3.3 网 络 的 元 余 .…… 驱 动 绑 定 、RSTP 
























































3.4 引入 VLAN...... 使 网 络 更 加 横 川 和 哉 (KLab) 
































(Hatena) 


广 濑 正明 
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广 濑 正明 
5.6 远程 维护 胜 见 祝 己 


5.7 Web 服务 器 的 日 志 处 理 性 
rotatelogs 胜 见 禧 已 
田中 慎 司 



























































1《WEB+DB PRESS》 (Vol.22) 特辑 2“MySQL 配置 指导 >、 第 2 章 “ 生 产 环境 中 的 同步 详解 ” 








2 《WEB+DB PRESS》 (Vol.38) 连载 “ 快 看 ! 这 是 高 手 的 诀 容 ” 可 扩展 的 Web 系统 工房 “第 1 
回 : 各 种 各 样 的 负载 均衡 ” 











3“5 分 钟 完 成 MySQL 的 内 存 关系 调整 ! ”URL http://dsas.blog.klab.org/archives/50860867.html 


14 0 (Vol.40) 连载 “ 快 看 ! 这 是 高 手 的 诀窍 ?可 扩展 的 Web 系统 工房 “第 3 
: 监控 的 种 种 ” 
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By \ 五 
术语 整理 
从 网 络 到 应 用 程序 ， 本 书 内 容 涉及 范围 较 广 ， 其 中 出 现 了 较 多 的 术语 。 
首先 将 常用 的 术语 整理 如 下 。 
AP 服务 器 (Application Server ) 
应 用 服务 器 ， 即 能 返回 动态 内 容 的 服务 器 。 


比如 Apache 十 mod_perl 运行 的 Web 服务 器 及 Tomcat 等 应 用 程序 运行 
的 服务 器 。 


CDN (Content Delivery Network， 内 容 分 发 网 络 ) 

发 送 内 容 的 网 络 系统 。 用 于 提高 信息 发 送 的 性 能 和 实用 性 。 

以 Akamai 等 商用 服务 为 例 ， 其 结构 上 的 特点 是 : 从 散布 在 全 世界 的 组 
存 服务 器 中 ， 选 择 离 客户 端 较 近 的 服务 器 来 发 送信 息 ， 据 此 实现 性 能 的 


提升 














IPVS (IP Virtual Server，IP 虚拟 服务 器 ) 


LVS (Linux Virtual Server) 的 成 果 之 一 ， 实 现 了 负载 均衡 器 中 不 可 或 
缺 的 负载 分 流 功 能 。 


本 参考 “LVS” 
LVS (Linux Virtual Server，Linux 虚拟 服务 器 ) 


Linux 中 由 在 搭建 具有 可 扩展 性 的 、 实 用 性 较 高 的 系统 的 项 目 。 项 目 成 
果 之 一 即 为 Linux 负载 分 流 所 设计 的 IPVS。 


原先 为 项 目 名 ， 现 通常 作为 “基于 Linux 的 负载 均衡 器 ”的 意思 使 用 。 





URL http:/www .linuxvirtualserver.org/ 


NIC (Network Interface Card， 网 络 接口 卡 ， 简 称 网 卡 ) 


原本 是 指 退 加 网 络 功能 所 需 的 扩展 卡 。 有 时 也 作为 网 络 接口 的 总 称 使 
用 ， 不 区 分 是 扩展 卡 还 是 板 载 。 


同时 也 可 称 为 LAN 卡 、 网 络 适 配器 等 。 











Netfilter 
Linux 内 核 中 操作 网 络 数据 包 所 需 的 协议 框架 。 


执行 分 组 过 滤 的 iptables 以 及 实现 负载 均衡 的 IPVS 也 应 用 了 本 Netfilter 
协议 。 


OSI 参考 模型 
用 来 描述 数据 通信 网 络 层 的 模型 ， 分 为 七 层 〈Layer) 框架 。 
以 下 为 常见 的 层 。 

。 第 七 层 〈 应 用 层 ) : HTTP 及 SMT 等 通信 协议 

。 第 四 层 〈 传 输 层 ) : TCP 及 UDP 

。 第 三 层 〈 网 络 层 ) : IP、ARP 及 ICMP 

。 第 二 层 〈 数 据 链 路 层 ) : 以 太 网 等 


另外 ， 像 工 2 交换 机 ”这 样 ， 有 时 也 将 “第 n 层 ” 记 为 “Ln”。 顺 市 一 提 ， 
OSI 是 Open Systems Interconnection 的 缩写 。 





| 


VIP (Virtual IP Address， 虚 拟 IP 地 址 ) 
不 同 于 物理 性 质 的 服务 器 及 网 卡 ， 该 IP 地 址 会 被 浮动 地 分 配 某 项 服务 


例如 对 于 负载 均衡 器 ， 接 收 客户 端 请 求 的 IP 地 址 就 称 为 VIP。 这 是 因 
为 该 卫 地 址 对 HTTP 等 服务 进行 了 关联 ， 另 外 在 元 余 的 Active/Backup 
架构 中 ， 唯 一 的 Master， 即 Active 的 负载 均衡 器 也 继承 了 该 IP 的 行 


虚拟 地 址 通常 也 称 为 虚拟 卫 地 址 。 

可 用 性 (Availability) 

系统 停止 的 可 能 性 。 在 可 用 性 较 高 的 情况 下 ， 通 常 该 服务 不 会 随意 终 
止 。 男 外 ， 根 据 其 字面 意思 ， 也 可 理解 为 “运行 效率 高 "或 者 “1 年 中 的 运 
作 时 间 长 ”等 。 

内 容 (Contents) 


0 内 容 是 指 返回 给 用 户 浏览 器 的 HTML 或 图 片 等 
数据 。 











静态 内 容 是 指 不 会 发 生变 化 的 内 容 ， 例 如 HIML 或 图 片 等 ， 动 态 内 容 
是 指 会 变化 的 数据 ， 根 据 请 求 的 不 同 所 返回 的 内 容 也 不 同 。 在 某 些 情况 
下 ， 动 态 内 容 并 非 单纯 指数 据 本 有 身 ， 而 是 指 返 回 动态 数据 的 服务 器 站 点 
的 程序 。 

服务 器 集群 (Server Farm ) 


很 多 服务 器 集合 而 成 的 基础 系统 。 根 据 上 下 文 环境 ， 有 时 也 作为 硬件 设 
施 的 意思 使 用 ， 与 数据 中 心 的 意思 相同 。 


在 一 些 新 闻 中 ， 有 时 也 会 形象 地 称 为 “服务 占 农 场 ”。 
见 余 (Redundancy) 


将 系统 的 构成 要 素 配 置 多 个 ， 这 样 即使 其 中 一 个 因为 发 生 故 障 而 停止 运 
作 ， 也 可 以 立即 切换 到 备用 设备 以 使 服务 不 停止。 


RAID (Redundant Arrays of Inexpensive Disks) 是 元 余 的 典型 例子 。 








交换 集线器 (Switching Hub ) 


目前 市 场 上 几乎 所 有 的 集线器 都 是 带 有 桥接 功能 的 交换 集线器 ， 而 
非 “ 中 继 集 线 器 ”(Repeater Hub) 。 


有 时 也 称 为 L2 交换 机 ， 或 者 简单 地 称 为 交换 机 。 

可 扩展 性 〈Scalability ) 

的 增多 以 及 规模 的 扩大 ， 在 某 种 程度 上 扩展 系统 以 加 强 应 对 的 
能 力 。 





横向 扩展 〈Scale-out) 

通过 将 内 容 分 散 到 多 台 服 务 器 并 行 处 理 ， 来 提升 系统 整体 的 性 能 。 
例如 使 负载 均衡 器 下 配置 的 Web 服务 器 的 数量 翻 倍 等 。 

纵向 扩展 (Scale-up) 

通过 提升 单个 服务 器 的 性 能 ， 来 提升 系统 整体 的 性 能 。 

例如 增加 服务 器 内 存 、 换 代 到 更 高 性 能 的 服务 器 等 。 

准 生 产 环境 (Staging Environment) 

在 投入 真正 的 服务 前 ， 进 行 最 终 的 动作 确认 的 环境 〈” 可 参考 “生产 环 
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境 ”) 





否 吐 量 (Throughput) 
在 网 络 等 数据 通信 环境 中 使 用 ， 代 表单 位 时 间 的 传送 量 〈( -, 可 参考 “ 延 


2 


例如 ， 虽 然 同样 是 车 ， 但 和 Fl 赛车 相 比 ， 大 巴 车 可 乘坐 的 人 较 多 ， 
此 大 巴 车 的 “吞吐 量 ? 就 较 大 。 


单 点 故障 〈Single Point of Failure ) 


若 此 处 出 现 问题 ， 就 会 令 整 个 系统 停止 ， 即 系统 的 要 害 。 也 叫 作 
SPO (Single Point of Failure) 。 


例如 ， 即 使 服务 器 由 RAID 和 多 路 复 用 的 电源 构成 ， 如 果 全 部 服务 器 部 
连接 在 同一 全 交换 集 线 大 上， 从 整个 系统 来 看 这 人 台 交 换 集线器 即 为 单 点 








故障 。 
数据 中 心 (Data Center ) 
为 了 容纳 服务 器 设备 而 创建 的 专用 设备 的 名 称 。 


安装 有 空调 ， 并 配备 停电 、 火 灾 、 地 震 等 问题 的 应 急 措 施 ， 以 保证 每 时 
每 刻 都 能 够 正 常 提供 服务 。 


守护 程序 (Daemon) 

在 后 台 下 持续 运行 并 发 挥 菜 种 作用 的 程序 。 

例如 httpd 和 bind 等 。 

网 段 (Network Segment ) 

广播 数据 包 所 及 范围 内 的 网 络 段 。 虽 和 “冲突 域 ”(Colision Domain) 意 
思 相 近 ， 但 因为 很 多 情况 下 并 无 冲突 发 生 ， 所 以 很 难 再 说 “Network 


Segment 一 Colision Domain” 了 。 





网 络 引 导 (Network Boot ) 
通过 网 络 获取 局 动 时 必要 的 引导 加 载 程序 和 内 核 映 像 并 局 动 。 


5.5 节 介绍 的 PXE 是 实现 网 络 引 导 的 方式 之 一 。 





分 组 (Packet) 


通常 指 IP 中 数据 的 最 小 计量 单位 。 有 时 也 叫 IP 分 组 、IP 包 、 数 据 包 


站 


和 人生 
二 于 


故障 转移 (Failover) 


在 见 余 系统 中 ， 在 活动 节点 (Active Node) (服务 区 或 者 网 络 设备 ) 停 
止 时 ， 目 动 通 过 某 种 行为 切换 到 备用 节点 〈Backup Node) 。 


顺带 一 提 ， 如 果 不 是 自动 切换 ， 而 是 手动 切换 ， 通 常 叫 作 Switch 
over 〈 手 动 切换 式 故障 转移 ) 。 


故障 恢复 (Failback ) 

从 活动 节点 停止 进行 故障 转移 的 状态 ， 恢 复 到 原始 的 正常 状态 。 

帧 (Frame) 

以 太 网 中 数据 的 最 小 计量 单位 。 也 称 为 以 太 网 帧 (Ethernet Frame)。 
被 阻塞 (Blocked) 


为 了 等 待 读 出 或 写 入 处 理 的 结束 而 无 法 进行 其 他 处 理 的 状态 ， 称 为 “ 因 
等 待 VO 而 被 阻塞 ”。 


ee IO 和 网 络 VO 使 用 的 术语 ， 在 输入 输出 处 理 时 一 般 也 
会 用 到 。 


生产 环境 (Production Environment) 

服务 的 运行 环境 〈( -, 参考 “ 准 生 产 环境 ”) 。 

健康 检查 (Health Check ) 

确认 检查 对 象 的 状态 是 人 否 正 第 。 

例如 确认 Web 服务 器 是 否 能 够 啊 应 ping、 是 否 能 连接 TCP 的 80 端 

口 、 是 人 否 能 应 答 HTTP 等。 通常 情况 下 ， 寿 健康 检查 失败 ， 融 会 问 管 理 
者 发 出 监控 对 象 故 障 的 警示 信息 。 

有 时 也 称 为 "服务 存活 状态 的 监控 ”。 

负载 (Load) 

“负载 ?的 种 类 很 多 ， 大 致 可 分 为 "CPU 负载 "? 和 “1/O 负载 ”。 


衡量 负载 情况 的 指标 通常 是 load average (平均 负载 这 样 的 数值 。 此 
外 vmstat 及 top 等 命令 也 可 衡量 负载 。 具 体 请 参见 4.1 市 。 


瓶颈 〈Bottleneck ) 














阻碍 系统 整体 性 能 提升 的 地 方 。 
内 存 文件 系统 (Memory File System ) 
并 非 像 磁盘 那样 永久 性 的 存储 装置 ， 而 是 在 内 存 中 建立 的 文件 系统 。 


虽说 使 用 起 来 类 似 磁 盘 上 的 文件 系统 ， 但 由 于 存储 在 内 存 中 ， 因 此 一 旦 
重启 数据 束 会 丢失 。 但 其 拥有 读 写 速度 快 等 优点 。 


轮 询 (Round Robin) 

对 多 台 节 点 有 序 地 派发 请 求 。 

包括 DNS 轮 询 和 负载 均衡 算法 等 。 前 者 是 指 将 多 个 A 记录 (IP 地 址 ) 
分 配 到 一 个 FQDN (完全 限定 域名 ，Fully Qualified Domain Name) 上 
以 分 散 请 求 ， 后 者 是 指 将 请 求 按 顺 序 分 散 到 多 合 服务 器 上 。 

资源 (Resource) 

指 CPU、 内存、 磁盘 等 服务 器 的 硬件 资源 。 

通常 说 “资源 被 占 据 ” 就 是 指 CPU 使 用 率 过 高 。 

延迟 〈Latency ) 


在 网 络 等 数据 通信 和 领域 里 使 用 时 ， 通 常 指数 据 投递 完成 所 花费 的 时 间 
(一 参考 “ 否 吐 量 ”) 。 


比如 说 ， 同 样 是 车 ，F1 赛车 就 比 大 巴 车 更 快速 ， 延 迟 更 小 。 

层 (Layer) 

-… 参考 “OSI 参考 模型 ”。 

负载 均衡 器 (Load Balancer) 

位 于 客户 端 与 服务 器 之 间 ， 将 客户 端的 请 求 分 散 到 后 端的 多 台 服 务 器 。 
换 名 话说， 就 是 将 多 台 服 务 器 合并 为 一 台 高 性 能 的 虚拟 服务 器 的 装置 。 























第 1 草 服务 右 及 基础 设施 挫 建 入 
一 一 岂 余 及 负载 分 流 的 基础 


1.1 宛 余 的 基础 


1.1.1 元 余 概述 

玫 余 〈Redundancy) 是 指 ， 在 故障 发 生 时 ， 使 用 事先 准备 好 的 备份 设 
备 ， 使 系统 相关 功能 得 以 继续 提供 服务 。 比 如 工厂 或 者 医院 为 了 防止 停 
电 ， 一 般 都 准备 有 发 电 装 置 ; 而 公共 交通 工具 为 了 以 防 万 一 ， 也 配备 有 
多 个 制 动 系统 以 确保 安全 。 

提供 Web 服务 的 网 络 与 服务 器 系统 也 不 例外 ， 为 了 确保 服务 的 可 用 

性 ， 对 系统 进行 见 余 处 理 的 情况 并 不 少见 。 本 节 将 讲解 实现 系统 见 余 的 
基础 知识 ， 然 后 再 介绍 个 简单 的 例子 。 

1.1.2 ”元 余 的 本 质 

系统 的 元 余 可 以 通过 以 下 步骤 实现 : 

@ 设想 可 能 发 生 的 故障 

@ 根据 故障 准备 备份 设备 

全 部 署 故 障 发 生 时 切换 到 备份 设备 的 工作 机 制 

下 面 按照 以 上 各 个 步骤 ， 对 操作 流程 进行 简单 的 介绍 。 

@ 设想 可 能 发 生 的 故障 


元 余 的 第 一 步 就 是 设想 故障 及 生 时 的 情况 。 请 参考 图 1.1.1 中 简单 的 系 
统 拓扑 结构 ， 来 考虑 该 图 中 可 能 会 导致 系 统 故 障 的 原因 。 


首先 ， 列 出 图 1.1.1 所 示 的 系统 可 能 太 生 的 故障 。 








。 路 由 器 故障 所 造成 的 服务 停止 
。 服务 器 故障 所 造成 的 服务 停止 







Internet ( 1SP 


图 1.1.1 最 简易 的 服务 器 系统 

在 图 1.1.1 中 ， 以 上 任何 一 种 情况 发 生 ， 都 会 造成 服务 停止。 

@ 预先 准备 好 备份 设备 

接 下 来 ， 为 了 应 对 故障 而 预先 准备 备份 设备 。 在 图 1.1.1 的 拓扑 结构 中 


增设 一 套 备 份 设 备 ， 得 到 的 拓扑 结构 如 图 1.1.2 所 示 。 人 至 此 ， 备 份 路 由 
器 和 备份 Web 服务 器 还 疝 未 连接 到 网 络 。 








Internet ( ISP) 





图 1.1.2 增设 备份 设备 


@ 部 署 工作 机 制 .…... 当 故障 发 生 时 ， 切 换 到 备份 设备 


最 后 ， 部 署 工 作 机 制 。 部 署 工 作 机 制 通 常 是 指 ， 针 对 以 上 人 四 步骤 中 
可 能 发 生 的 故障 节点 1 及 故障 属性 ， 考 虑 通过 在 硬件 层面 部 署 怎样 的 拓 
扑 才能 解决 这 些 故障 。 

| 清和 机 科学 技术 和亲 [MINGC194] 的 第 112 页 中 ， 关 于 计算 机 网 络 的 名 词 “node” 对 应 的 翻 


译 ， 但 我 们 这 里 将 “node” 视 为 有 计算 能 力 的 单元 ， 就 像 人 体 的 关节 一 样 ， 因 此 译 
为 “ a 译 者 注 


下 面 以 步骤 @@ 中 所 设想 的 路 由 器 故障 和 Web 服务 器 故障 为 例 ， 对 基本 
工作 机 制 的 部 署 和 元 余 中 用 到 的 基本 术语 进行 讲解 。 


1.1.3 ”应 对 路 由 器 故障 的 情况 


在 图 1.1.1 的 状态 下 ,一旦 路 由 器 发 生 故 障 ， 服 务 束 会 停止 。 在 图 1.1.2 
中 ， 通 过 增设 备份 设备 ， 即 便 路 由 器 发 生 故 障 ， 也 能 像 图 1.1.3 中 那样 
仅 通 过 切换 连接 线 就 可 以 方便 地 解决 故障 ， 从 而 恢复 服务 。 
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图 1.1.3 应 对 路 由 器 故障 的 情况 
冷 备 份 
如 图 1.1.2 和 图 1.1.3 所 示 ， 我 们 平常 并 不 会 用 到 备份 设备 ， 只 有 在 故障 


发 生 时 才 需 要 连接 到 备份 设备 ， 该 工作 机 制 称 为 “ 冷 备份 CCold 
Standby) 。 





在 此 需要 关注 的 重点 是 : 现 用 设备 与 备份 设备 的 相关 设 定 需 要 完全 一 
0 0 


在 使 用 路 由 器 等 网 络 设备 的 情况 下 ， 因 为 不 用 在 生产 环境 中 频 楷 地 修改 
设 定 “切换 连接 ) ， 而 且 数据 也 并 非 一 定 要 长 期 保存 ， 所 以 使 用 冷 备 份 
不 失 为 一 个 现实 可 行 的 方法 。 


1.1.4 应 对 Web 服务 器 故障 的 情况 
下 面 考虑 在 Web 服务 器 发 生 故 障 的 时 候 要 如 何 应 对 。 当 Web 服务 器 发 


生 故 障 时 ， 也 可 以 采取 与 上 述 路 由 器 发 生 故 障 时 同样 的 思路 ， 即 参照 图 
1.1.4 切换 到 备份 设备 ， 但 此 处 仍 存在 一 个 问题 。 
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图 1.1.4 应 对 在 Web 服务 器 故障 的 情况 
热 备 份 


综 上 上 所 述 ， 在 元 余 系 统 中 “确保 现 用 设备 始终 与 备份 设备 的 架构 保持 同 
样 的 状态 ”是 非常 重要 的 。 


在 Web 服务 需 中 ， 面 对 每 天 都 要 更 新 的 网 站 内 容 ， 应 用 软件 或 操作 系 
统 的 版 本 更 新 等 也 在 所 难免 。 为 了 能 局 用 备份 设备 ， 束 不 能 停止 冷 备份 
设备 在 生产 环境 中 的 各 种 更 新 。 仅 仅 为 了 在 发 生 故 障 时 能 局 用 备份 设 
备 ， 而 去 费时 费力 地 同步 更 新 站 点 内容 或 应 用 软件 版 本 ， 这 确实 有 些 宽 














力 不 讨 好 。 


有 个 好 办 法 可 以 解决 该 问题 ， 即 让 Web 服务 器 的 备份 设备 一 直 保 持 接 
入 电源 及 Internet 的 状态 。 在 现 用 设备 内 容 更 新 时 ， 备 份 设备 也 同步 更 
新 内 容 以 确保 与 现 用 设备 的 内 容 一 致 ， 如 图 1.1.5 所 示 。 


Internet ( ISP ) 


网 站 内 容 的 更 新 
应 用 软件 的 版 本 升级 等 





图 1.1.5 热 备份 模式 的 使 用 

像 这 样 让 两 台 服 务 器 同时 运行 ， 并 保持 同样 状态 的 使 用 模式 称 为 “ 热 备 
份 ”(Hot Standby) 。 在 使 用 热 备份 的 情况 下 ， 由 于 不 会 物理 性 地 插 拔 
网 线 以 切换 连接 ， 发 生 故 障 也 不 会 宕 机 太 长 时 间 ， 所 以 就 让 及 时 切换 以 
解决 故障 成 为 了 可 能 。 

1.1.5 ”故障 转移 


当 现 用 设备 发 生 故 障 时 ， 系 统 会 上 自动 将 处 理 交 接 到 备份 设备 ， 该 操作 称 
为 故障 转移 〈Failover) 。 


服务 器 的 故障 转移 主要 使 用 “虚拟 IP 地 址 ”(Virtual IP Address， 下 文 统 
称 VIP) 与 “IP 地 址 的 映射 (也 称 漂移 ”来 操作 。 


VIP 
图 1.1.6 是 使 用 VIP 搭建 Active/Backup 〈 现 用 设备 /备份 设备 ) 拓扑 结 


构 的 例子 。 图 中 的 Webl 是 现 用 设备 ， 目 前 VIP (10.0.0.1) 已 经 映射 到 
该 设备 使 用 的 IP 地 址 ， 通 过 连接 到 该 VIP 来 提供 Web 服务 。 






VIP ( 虚拟 IP 地 址 ) 
10.0.0.1 
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图 1.1.6 利用 VIP 搭建 的 Active/Backup 拓扑 结构 


IP 地 址 的 映射 


如 图 1.1.7 所 示 ， 当 现 用 设备 发 生 故 障 时 ，VIP 就 会 映射 到 备份 设备 ， 
证 最 终 用 户 访问 到 备份 设备 Web2。 






I 
( 客户 机 ) 





备份 设备 
10.0.0.102 { Webz2 ) 





图 1.1.7 IP 地 址 的 映射 


1.1.6 ”检测 故障 ..….. 健康 检查 


为 了 能 正常 进行 故 隐 转移 ， 需 要 在 现 用 设备 发 生 故 障 时 及 时 知晓 ， 该 操 
作 机 制 称 为 健康 检查 〈Health Check) 。 健 康 检 查 有 各 种 类 型 ， 可 以 根 
据 用 途 选 择 适合 的 方法 。 以 下 举 出 儿 种 常用 的 方法 : 


。ICMP 监控 (第 三 层 “) 
ICMP 监控 是 指 ， 检 查 由 ICMP3 所 发 出 的 echo 请 求 是 否 得 到 了 应 
答 。 由 于 这 是 最 基本 的 健康 检查 ， 因 此 无 法 得 知 Web 服务 


(Apache 等 ) 是 否 已 经 停止 


端口 监控 (第 四 层 ) 

端口 监控 是 指 ， 通 过 使 用 TCP 协议 尝试 连接 目标 主机 ， 检 查 目 标 
主机 是 舍 能 被 连接 。 该 监控 可 以 得 知 Web 服务 是 否 还 在 正常 运 
行 ， 但 无 从 得 知 系统 的 负载 状况 ， 也 无 从 得 知 错误 的 回报 情况 
服务 监控 《第 七 层 ) 

通过 实际 发 出 HTTP 请 求 等 ， 检 查 该 请 求 是 否 得 到 了 应 答 。 虽 说 这 
种 方法 可 以 检查 所 有 的 姑 利 状况 ， 但 根据 情况 的 不 同 ， 可 能 会 加 重 
目标 主机 的 负载 


“这 里 的 层次 指 的 是 OSI 参考 模型 中 的 七 层 结构 ， 下 文 同 。 






































译 者 注 








3 全 称 为 mternet Control Message Protocol， 是 异常 发 生 时 通知 错误 及 错误 信息 的 协议 。 





Web 服务 器 的 健康 检查 


在 本 章 的 开头 ， 我 们 设想 了 在 如 图 1.1.1 所 示 的 拓扑 结构 下 可 能 会 发 生 
的 两 种 故障 。 


其 中 一 种 是 “服务 器 故障 所 造成 的 服务 停止 "?， 为 了 检测 出 该 故障 ， 需 要 
使 用 上 文 介 绍 的 健康 检查 中 的 “服务 器 监控 >?。 为 什么 需要 使 用 服务 器 监 
控 呢 ? 因为 即使 服务 器 已 经 接 入 电源 ， 而 且 对 ICMP 测试 有 应 答 ， 我 们 
也 依然 不 能 断定 Web 服务 ‘(Apache 等 ) 在 正常 工作 。 为 了 检测 出 Web 
服务 器 的 故障 ， 需 要 党 试问 需 要 测试 的 目标 主机 实际 发 出 HTTP 请 求 ， 





并 确认 能 舍得 到 应 答 ， 这 是 相对 切实 有 效 的 方法 。 
路 由 器 的 健康 检查 


而 为 了 检测 出 “路 由 器 故障 所 造成 的 服务 集 止 ?， 殊 需要 使 用 ICMP 监控 
了 。 请 注意 这 里 并 不 是 对 路 由 器 进行 ICMP 监控 。 因 为 需要 确认 的 

是 “路 由 器 是 否 正 确 进行 了 分 组 〈Packet) 交换 ”， 因 此 从 网 络 上 的 其 他 
主机 来 监控 Web 服务 器 是 比较 好 的 选择 。 总 而 言 之 ， 只 要 确定 Web 服 
务 吉 与 mternet 能 够 进行 通信 就 可 以 了 。 


在 进行 健康 检查 时 ， 首 先 要 明确 目标 ， 这 一 点 最 为 重要 。 
1.1.7 搭建 Active/Backup 的 拓扑 结构 


下 面 就 实际 使 用 Shell 脚本 ， 尝 试 搭建 前 文中 如 图 1.1.6 所 示 的 拓扑 结 
构 。 这 里 Web1 与 Web2 已 经 分 配 了 只 属于 本 机 的 实际 卫 地址。 在 代码 
清单 1.1.1 中 ， 每 秒 对 VIP 发 出 一 次 ping 测 试 ， 若 失败 ， 则 该 脚本 会 自 
行将 VIP 映射 到 可 用 主机 上 。 


首先 ， 请 在 Web1 中 执行 代码 清单 1.1.1 的 脚本 。 在 输出 字符 串 “fail 
over1” 后 ， 该 脚本 执行 结束 ， 于 是 VIP 就 被 分 配 到 了 Web1。 接 下 来 ， 
请 在 Web2 中 执行 代码 清单 1.1.1 中 的 脚本 ， 这 次 每 秒 都 会 有 一 

行 “health ok!” 输 出 。 











代码 清单 1.1.1 failover.sh 





#1/bin/sh 
VIP="16.0.0.1"” 
DEV="eth6" 


healthcheck() { 
ping -c 1 -w 1 $VIP >/dev/null 
return $? 


} 


ip takeover() { 

MAC= `ip link show $DEV | egrep -o '([8-9a-f]{2}:){5}[6-9a-f]{2}' 
head -n 1 | tr-d:. 

ip addr add $VIP/24 dev $DEV 


send arp $VIP $MAC 255.255.255.255 ffffffffffff <@ 


} 

while healthcheck; do 
echo "health ok!" 
sleep 1 

done 

echo "fail over!" 

ip_ takeover 





※ 请 在 Debian/GNU Linux 4.0 (内 核 版 本 3.1) 以 上 的 版 本 中 执行 上 面 的 代码 。 


请 在 客户 端 对 VIP 执行 ping 指令 ， 并 且 在 执行 的 同时 答 试 关闭 
Web1。 一 旦 Webl 关闭 ，Web2 上 运行 的 脚本 的 健康 检查 就 会 失败 ， 从 
而 就 会 有 VIP 映射 的 操作 。 


如 图 1.1.8 所 示 ， 通 过 在 客户 站 执行 的 ping 指令 所 取得 的 结果 ， 能 够 确 
认 在 Web1 关闭 大 概 三 秒 钟 后 ，IP 地 址 的 映射 操作 已 经 完成 。 


图 1.1.8 故障 转移 的 动作 确认 
































~$ ping 16.6.6.1 
PING 16.6.6.1 (16.6.6. 1) 56(84) bytes of data. 
bytes from ijcmp_seq=1 ttl]=64 time=2.46 ms 
bytes from ijcmp_seq=2 ttl=64 time=1.86 ms 
bytes from icmp_seq=3 ttl1=64 time=5.66 ms 
bytes from ijcmp_seq=4 ttl1=64 time=2.64 ms 
bytes from ijcmp_seq=5 ttl]=64 time=6.453 ms 
icmp_seq=6 ttl1=64 time=3.73 ms 
ijcmp_seq=7 ttl1=64 time=3.91 ms 
icmp_seq=8 tt1=64 time=6.418 ms < 在 这 里 关闭 Web1 
icmp_seq=11 tt1=64 time=3.26 ms < 已 经 完成 Web2 的 交接 
ijcmp_seq=12 tt1=64 time=1.69 ms 
ijcmp_seq=13 tt1=64 time=1.48 ms 


bytes from 
bytes from 
bytes from 
bytes from 
bytes from 
bytes from 
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IP 地 址 的 映射 操作 


“TP 地 址 的 映射 操作 ”并 不 是 单纯 的 “仅仅 更 换 IP 地 址 ”这 么 简单 。 为 了 
Or 从 其 他 设备 
持 de ， 并 交 蔡 拔 插 LAN 网 线 。 可 以 发 现 ， 无 论 怎么 拔 插 
网 线 ， 通关 过 ping 指 令 也 只 能 确认 单 台 服务 器 的 状态 。 





在 LAN (Ethemet， 以 太 网 ) 中 ， 并 不 是 通过 IP 地 址 ， 而 是 通过 被 固定 
分 配给 NIC (Network Interface Card， 网 络 适配器 ) 的 MAC (Media 
Access Control Address， 人 和 介质 访 问 控制 ) 地 址 来 完成 通信 的 。 在 给 其 他 
服务 器 发 送 分 组 的 时 候 ， 为 了 取得 MAC 地 址 ， 通 常 还 会 使 用 到 

ARP (Address Resolution Protocol， 地 址 解析 协议 ) 。 


ARP 协议 是 指 ， 通 过 指定 目标 设备 的 卫 地 址 ， 碍 询 目 标 设 备 的 MAC 
地 址 。 但 由 于 每 次 通信 时 都 进行 查询 效率 会 非常 低 ， 因 此 通常 会 将 一 次 
取得 的 MAC 地 址 缓存 在 ARP 绥 存 表 中 一 段 时 间 。 这 样 一 来 ， 即 便 别 
的 服务 器 被 分 配 到 了 相同 的 IP 地 址 ， 在 ARP 缓存 表 更 新 之 前 ， 该 服务 
器 也 都 没有 办 法 完成 通信 。 所 以 在 分 配 卫 地 址 到 其 他 服务 器 时 ， 请 务 
必 注 意 更 新 ARP 缓存 表 。 


你 也 可 以 使 用 gratuitous ARP ‘GARP) 作为 获取 MAC 地 址 的 手段 。 
在 通常 没有 使 用 gratuitous ARP 的 情况 下 要 查询 MAC 地 址 时 ，ARP 请 
求 的 内 容 是 “请 告诉 我 这 个 IP 地 址 所 对 应 的 MAC 地 址 *”。 而 阁 是 使 用 了 
gratuitous ARP，gratuitous ARP 则 会 通知 其 他 主机 : “这 是 我 的 卫 地 址 
和 MAC 地 址 。*” 在 代码 清单 1.1.1 (failover.sh) 中 ,在 @ 处 使 用 了 
send_arp 命 令 ， 目 的 就 是 发 送出 gratuitous ARP 的 通知 消息 。 
































1.1.8 ”还 想 更 有 效 地 使 用 服务 器 ...... 负 载 分 发 4 
4Load Balance， 文 中 在 强调 分 流 的 逻辑 动作 时 译 为 了 “负载 分 发 "， 强 调 负载 的 拓扑 时 译 为 
了 “负载 均衡 >， 强调 降低 负载 时 译 为 了 “负载 分 流 ”。 一 一 译 者 注 














在 上 述 的 Active/Backup 拓扑 结构 中 ， 仅 使 用 了 现 用 设备 进行 处 理 ， 而 
备份 设备 则 闲置 没 用 ， 仔 细 想 想 还 真是 可 惜 。 知 是 能 同时 使 用 两 台 服 务 
器 来 提供 服务 ， 那 网 站 整体 的 处 理性 能 应 该 会 翻 倍 吧 。 


使 用 多 台 服 务 器 分 发 处 理 ， 网 站 整体 的 可 扩展 性 也 会 随 之 提高 ， 这 样 的 
做 法 称 为 被 负载 分 发 (Load Balance， 或 负载 均衡 ) 。 对 Web 服务 器 做 
出 负载 分 发 的 处 理 后 ， 将 来 即便 访问 量变 高 ， 目 前 的 服务 器 已经 无 法 满 
足 需 求 ， 也 可 以 轻易 地 通过 增设 服务 器 来 满足 相应 的 需要 ， 而 并 不 需要 
购买 局 性 能 服务 器 来 更 换 挤 现 有 的 无 法 满足 需求 的 设备 。 这 样 一 来 ， 即 
便 是 旧 的 服务 器 也 可 以 页 献 余 热 ， 也 就 不 会 造成 浪费 。 


在 下 面 的 1.2 节 和 1.3 节 ， 将 介绍 Web 服务 器 负载 分 发 的 具体 搭建 实 
例 。 











1.2 实现 Web 服务 器 的 宛 余 DNS 轮 询 


1.2.1 DNS 轮 询 


DNS 轮 询 (DNS Round Robin ) 是 指 ， 利 用 DNS 把 一 台 服 务 器 需要 处 
理 的 内 容 ， 分 配 到 多 台 服 务 器 来 进行 。 如 图 1.2.1 所 示 为 DNS 轮 询 的 行 
为 。 假 定 有 两 名 想 要 访问 www.example.cn 网 站 的 用 户 : A 先生 与 B 先 
这 两 人 分 别 向 DNS 服务 器 询问 了 www.example.cn 网 站 的 卫 地 

目 ， 其 后 DNS 服务 器 分 别 J ea 0 人 
向 多 IP 地 址 ， 于 是 A 先生 便 通 过 x.x.x.1 访问 ，B 先生 则 通过 x.x.x.2 访 
问 。 





想 要 访问 www.example.cn 













询问 DNS 道 : 
请 告诉 我 www.example.cn 


的 IP 地 址 ， 






DNS 服务 器 
www.example.cn IN A x.x.x.1 
www.example.cn IN A x.x.x.2 






Web 服务 器 2 
We 
图 1.2.1 DNS 轮 询 


在 DNS 服务 器 中 ， 若 同一 个 域名 上 提交 了 多 个 记录 Record) ， 则 每 
次 访问 时 DNS 服务 吉 都 会 解析 到 不 同 的 卫 地 址 。 如 果 能 够 利用 好 这 一 
特性 ， 束 能 把 需要 人 处理 的 内 容 分 配 到 多 台 服 务 器 上 进行 处 理 。 这 是 相对 











比较 简易 的 负载 分 发 的 实现 方式 ， 但 还 存在 以 下 问题 : 
。 必须 取得 需要 轮 询 的 目标 服务 器 的 全 局 地 址 


为 了 实现 多 全 服务 器 的 负载 分 肥 ， 取 得 这 些 服 务 顺 的 IP 地 址 是 利 
用 服务 “〈 线 路 ) 的 前 提 


。 并 不 一 定 能 实现 均等 的 分 发 


在 手机 站 点 中 ， 这 个 问题 被 逐渐 暴露 了 出 来 。 通 稍 来 目 手机 的 访问 
会 经 由 称 为 行业 网 关 的 代理 服务 器 ， 由 于 代理 服务 器 会 将 域名 解析 
的 结果 缓存 一 段 时 间 ， 所 以 经 由 该 代理 服务 器 的 访问 请 求 就 会 被 解 
析 到 同一 从 服务 器 上 ， 因 此 束 可 能 无 法 实现 均等 分 配 需要 处 理 的 请 
求 ， 而 只 令 某 台 服 务 器 集中 处 理 。 另 外 在 PC 平台 上 的 网 页 浏览 器 

也 会 缓存 这 些 DNS 解析 的 结果 ， 这 就 令 均等 分 配 更 加 不 可 能 。 虽 

说 将 DNS 记录 的 TIL (Time To Live，DNS 记录 的 缓存 时 间 ) 修 

改 得 短 一 些 多 少 可 以 改善 这 个 问题 ， 但 这 并 不 说 只 要 修改 TIL， 令 
DNS 绥 存 频繁 释放 ， 就 能 解决 根本 问题 


无 从 得 知 服务 器 宕 机 


DNS 服务 右 不 能 知晓 Web 服务 器 的 负载 或 连接 数 等 信息 ， 因 此 无 
法 根据 服务 器 的 反馈 调节 分 配 。 当 Web 服务 器 的 负载 逐步 加 重 ， 
啊 应 时 间 也 变 得 很 慢 时 ，DNS 也 无 从 得 知 连 接 数 是 否 已 经 超出 服 
务 器 能 够 处 理 的 范围 。 也 就 是 说 ， 即 便服 务 器 已经 因为 某 种 原因 宕 
机 ，DNS 服务 器 也 不 会 注意 到 这 些 问题 ， 只 会 继续 进行 负载 分 发 
处 理 。 万 一 用 户 被 分 配 到 已 经 宕 机 的 服务 器 ， 那 么 该 用 户 要 和 面 对 的 
将 是 出 错 的 页 面 。DNS 轮 询 始终 只 是 机 械 地 做 着 负载 分 发 的 操 

作 ， 而 这 并 不 属于 见 余 的 操作 ， 因 此 很 有 必要 安装 其 他 软件 来 进行 
健康 检查 、 故 障 转移 等 工作 


1.2.2 DNS 轮 询 的 元 余 拓 扑 结构 示例 


在 如 图 1.2.2 所 示 的 拓扑 结构 中 ， 两 台 Web 服务 器 都 被 分 配 了 VIP 〈 虚 
拟 耻 ) 。 万 一 Webl 停止 工作 ，VIP1 就 会 映射 到 Web2， 其 后 所 有 的 访 
问 都 将 由 Web2 处 理 。 相 反 ， 万 一 Web2 停止 工作 ，VIP2 就 会 映射 到 

Web1， 自 然 其 后 所 有 的 访问 都 将 由 Web1l 处 理 。 正 是 因为 Web 服务 器 
彼此 之 间 互 相 协调 ， 所 以 只 要 有 能 够 正常 工作 的 服务 器 ，VIP 就 会 进行 








映射 操作 以 维持 服务 的 正常 提供 。 







用 户 访 问 
http://www.example.cn/ 


使 用 DNS 轮 询 实现 负载 分 流 


example.cn IN A 10.0.0.1 
example.cn IN A 10.0.0.2 














Web 服 务 器 
10.0.0.101 ( Web1 ) 


Web 服 务 器 
10.0.0.102 ({ Web2 ) 


Web 服 务 器 
10.0.0.101 ( Webi 


Web 服 务 器 
10.0.0.102 ( Web2 ) 


图 1.2.2 DNS 轮 询 的 见 余 拓扑 结构 示例 


如 果 直 接 使 用 上 文 介绍 的 代码 清单 1.1.1 (failoversh) 来 搭建 这 个 拓扑 
结构 ， 就 可 能 会 出 现 以 下 问题 : 


。 必须 修改 Web1 与 Web2 的 VIP 设 定 值 
”无 法 在 两 台 服 务 器 上 使 用 同样 的 脚本 


。 由 于 使 用 了 ICMP 监控 ， 因 此 即便 Web 服务 (Apache 等 ) 售 
止 ， 也 无 法 触发 故障 转移 


于 是 ， 我 们 将 代码 清单 1.1.1 的 脚本 修改 成 代码 清单 1.2.1 的 脚本 。 


代码 清单 1.2.1 failover2.sh 


#1/bin/sh 


DEV="ethe" 
VIP="160.0.0.1 106.0.0.2" 


healthcheck() { 
for i in $VIP;do 
if [ -z "ip addr show $DEV | grep $i*" ]; then 
if [ "266" -ne "curl -s -I 'http://$i/' | head -n 1 | cut -f 2 -d ' 
CIP="$i" 
return 1 


done 
return 0 


} 


ip takeover() { 
MAC=` ip link show $DEV | egrep -o '([6-9a-f]{2}:){5}[8-9a-f]{2}' | head - 
ip addr add $CIP/24 dev $DEV 
send arp $CIP $MAC 255.255.255.255 ffffffffffff 

} 


while healthcheck; do 
echo "health ok!" 
sleep 1 

done 

echo "fail over!" 

ip_takeover 





这 样 两 台 服 务 器 就 能 使 用 同样 内 容 的 脚本 了 。 这 里 并 没有 使 用 ping 指 





令 ， 而 是 通过 使 用 curb 来 进行 健康 检查 ， 所 以 即使 Web 服务 停止 ， 也 
能 司 动 故障 转移 ， 但 是 这 样 做 仍 会 留 下 两 个 问题 : 


5 命令 行 的 HTTP 客户 端 软件 。URE http://curl.haxx.se/ 





。 由 于 即使 Web 服务 停止 也 无 法 释放 VIP， 因 此 可 能 会 造成 IP 地 
址 冲突 


。 一 旦 启动 故障 转移 ， 该 脚本 就 会 停止 运行 
考虑 到 以 上 两 点 ， 还 需要 对 脚本 做 些 修改 ， 如 代码 清单 1.2.2 所 示 。 


代码 清单 1.2.2 failover3.sh 





#1/bin/sh 
DEV="ethe" 
VIP="160.0.0.1 106.0.0.2" 


ip_add() { 
MAC= `ip link show $DEV | egrep -0o '([6-9a-f]{2}:){5}[8-9a-f]{2}' | head - 
ip addr add $1/24 dev $DEV 
send arp $i $MAC 255.255.255.255 ffffffffffff 


ip del() { 
ip addr del $1/24 dev $DEV 


} 


healthcheck() { 
for i in $VIP;do 
if [ "260" -ne "cuyrl -s -I 'http://$i/' | head -n 1 | cut -f2-d"''" 
if [ -z "ip addr show $DEV | grep $i*" ]; then 
ip add $i 
else 
ip del $i 
fi 
fi 
done 


while true; do healthcheck;sleep 1;done 





代码 清单 1.2.2 的 修改 增加 了 以 下 内 容 : 在 VIP 的 健康 检查 失败 的 情况 
下 ， 寿 为 目 行 分 配 的 地 址 ， 则 可 视 为 本 机 的 Web 服务 及 生 了 开 单 ， 其 





后 释放 VIP ; 相反 ， 若 不 是 自行 分 配 的 地 址 ， 则 可 视 为 对 方 的 Web 服 
务 发 生 了 异常 ， 从 而 自行 将 VIP 映射 。 另 外 ， 在 本 脚本 中 ， 无 论 如 何 映 
射 VIP， 脚 本 都 不 会 停止 运行 。 


1.2.3 ”还 想 更 轻松 地 扩充 系统 .….…... 负载 均衡 器 


根据 以 上 介绍 ， 无 论 哪 方 服务 器 的 Web 服务 有 友 生 了 异常 ， 都 能 够 正确 
地 启动 故障 转移 。 而 要 想 使 用 DNS 轮 询 在 实现 负载 分 发 的 同时 也 实现 
见 余 ， 残 需要 花费 很 多 心力 。 随 着 服务 此 数量 的 增加 ， 系 统 会 越 来 越 复 
杂 ， 设 置 DNS 轮 询 的 元 余 搭建 也 会 变 得 越 来 越 难 。 如 果 在 3 台 服 务 器 
上 使 用 代码 清单 1.2.2 的 脚本 ， 就 会 出 现 以 下 问题 : 


。 在 余 个 服务 器 宕 机 后 无 法 确定 具体 要 交接 到 哪个 服务 器 


。 根据 启动 故障 转移 的 时 机 ， 有 时 可 能 会 让 两 台 服务 器 分 配 到 同样 
的 卫 地址 


。 一 旦 服务 器 俘 止 运行 ， 修 复 这 人 台 服 务 器 的 工作 会 变 得 很 困难 


虽说 通过 进一步 完善 脚本 或 者 配合 使 用 其 他 的 软件 应 该 也 能 解决 这 些 问 
题 ， 但 我 们 还 是 希望 可 以 更 轻松 地 扩充 系统 。 另 外 ， 在 Web 服务 器 的 
拓扑 结构 中 还 是 尽量 不 要 运行 其 他 软件 。 在 下 面 一 节 中 ， 我 们 将 介绍 负 
载 均衡 器， 通过 引入 负载 均衡 器 ， 以 上 问题 残 会 迎刃而解 。 








1.3 ”实现 Web 服务 器 的 元 余 基于 IPVS 的 负 


载 均衡 妖 
1.3.1 DNS 轮 询 与 负载 均衡 器 的 不 同 点 


负载 均衡 器 (Load Balancer， 也 称 负载 分 发 或 负载 分 流 设备 ) 能 够 将 问 
同一 IP 地址 发 出 的 请 求 分 发 到 多 人 台 服 务 器 进行 处 理 。 而 DNS 轮 询 则 需 
要 分 别 向 Web 服务 器 分 配 不 同 的 了 地 址 〈 全 局 地 址 ) 。 因 此 使 用 负载 
均衡 器 ， 能 够 节省 全 局 地 址 的 使 用 。 使 用 DNS 轮 询 的 情况 下 ， 在 架设 
Web 服务 的 元 余 结 构 时 会 宽 心 费力 ， 而 负载 均衡 器 则 无 需 这 样 的 操作 。 


。 负载 均衡 占 的 行为 


负载 均衡 器 会 被 作为 虚拟 服务 器 使 用 ， 它 拥有 提供 服务 的 全 局 地 
址 。 通 过 将 来 自 客 户 端的 请 求 中 转 到 真正 进行 处 理 的 Web 服务 天 
(下 文 统 称 为 真实 服务 器)， 就 像 是 Web 服务 器 一 样 运 行 


负载 均衡 器 的 功能 


负载 均衡 器 是 从 多 台 真 实 服务 器 中 选 出 其 中 一 台 ， 并 交 由 其 进行 处 
理 。 负 载 均 衡器 不 会 选择 健康 检查 失败 的 服务 器 ， 而 一 定 会 选择 健 
康 检查 成 功 的 服务 器 。 因 此 无 论 哪 台 服 务 器 停止 运行 ， 只 要 有 一 合 
服务 器 正常 工作 ， 痢 不 会 影响 到 整个 服务 的 正 第 提供 


引入 负载 均衡 右 的 门槛 


人 们 可 能 会 对 负载 均衡 希 抱 有 "负载 均衡 右 = 男 贵 的 设备 "这样 的 印 
象 ， 还 有 可 能 会 担心 目 己 能 人 否 使 用 好 这 套 设备 等 ， 这 些 顾 虑 都 会 提 
高 引入 负载 均衡 的 门槛 


关于 引入 负载 均衡 器 的 门槛 ， 确 实 专用 的 服务 器 产品 会 比较 贵 ， 每 月 的 
最 低 消 费 等 费用 也 比较 高 。 而 且 万 一 发 生 故 障 ， 还 有 必要 联系 研发 商 以 
获得 该 负载 均衡 器 的 技术 支持 。 根 据 使 用 情况 ， 还 有 可 能 需要 升级 防火 
墙 等 ， 因 此 也 不 能 中 断 维 护 合同 来 缩减 运营 经 绩 。 在 确保 一 定 程度 的 入 
利之 前 ， 难 以 下 决心 引入 负载 均衡 器 的 情况 很 常见 。 但 是 也 可 以 选择 不 
使 用 专用 服务 器 ， 而 使 用 OSS (OpenSource Software， 开 源 软件 ) 来 搭 























建 ， 并 由 上 自己 来 运营 。 接 下 来 将 正式 讲解 如 何 自 行 搭建 生产 环境 中 的 负 
载 均衡 器 。 


1.3.2 IPVS...... 基于 Linux 的 负载 均衡 器 


即使 不 安装 特别 的 软件 ，Linux 也 可 以 作为 路 由 器 (网 络 设备 ) 使 用 。 
而 且 系 统 的 防火 墙 也 有 很 多 实用 的 功能 ， 例 如 分 组 过 小 (Packet 
Filtering ) 技术 等 众多 的 网 络 功能 。 提 供 负 载 均衡 功能 的 IPVS (IP 
Virtual Server) 模块 也 包含 在 其 中 。 


负载 均衡 器 的 种 类 与 IPVS 的 功能 


接 下 来 说 明 负 载 均衡 器 的 种 类 。 负 载 均衡 占 的 种 类 按 大 的 方 同 可 分 为 四 
层 交 换 机 (L4 switch) 与 七 层 交 换 机 (L7 switch) 两 种 6。 四 层 交 换 机 
进行 的 是 传输 层 信 息 的 处 理 ， 可 以 根据 卫 地 址 或 端口 号 ， 指 定 作 为 分 
发 目的 地 的 服务 器 。 而 七 层 交 换 机 进行 的 则 是 应 用 层 信息 的 处 理 ， 可 以 
根据 从 客户 端 请 求 的 UREL， 指 定 分 发 目的 地 的 目标 服务 器 。 


6L4 与 7 在 OSI 参考 模型 中 分 别 对 应 第 四 层 (传输 层 ，Transport Layer) 与 第 七 层 〈 应 用 层 ， 
Application Layer) 。 





安装 了 IPVS 就 “相当 于 拥有 了 四 层 交 换 机 的 功能 ”而 七 层 交 换 机 这 里 
暂时 不 会 用 到 。 


在 本 书 的 讲解 中 ， 夺 没有 特别 说 明 ， 均 可 认为 是 四 层 交 换 机 的 负载 均衡 
器 7。 另外 ， 一 般 情况 下 说 到 负载 均衡 器 ， 大 多 默认 指 “ 四 层 交 换 机 ”。 


7 在 使 用 反 向 代理 的 情况 下 ， 也 有 可 能 实现 一 部 分 七 层 交换 机 的 功能 。 关 于 反 向 代理 的 详情 ， 
请 参考 2.1 节 。 



























































1.3.3 ”调度 算法 


将 处 理 分 发 到 真实 服务 器 时 ， 如 果 平 均 地 分 流 到 所 有 服务 器 ， 在 不 同 配 
置 的 服务 器 混合 使 用 的 环境 下 就 有 可 能 造成 服务 器 负载 不 平衡 。 在 
IPVS 中 有 一 种 名 为 “调度 算法 ”(Scheduling Algorithm〉 的 调度 器 ， 必 
Re 0 表 1.3.1 是 主要 的 算法 一 览 


表 1.3.1 主要 的 算法 


rr (round-robin， 轮 询 ) 调度 


该 算法 不 考虑 别 的 因素 ， 单 纯 以 轮 叫 的 方式 依次 请 求 真 实 服务 器 。 因 此 处 理会 被 均 
等 地 分 发 给 所 有 的 服务 器 


wrr (weighted round-robin， 加 权 轮 询 ) 调度 
与 上 述 的 mr 有 些 类 似 ， 但 该 算法 引用 了 一 个 加 权 值 来 控制 分 发 的 比率 。 加 权 值 越 大 ， 
服务 器 被 选择 的 概率 就 越 高 ， 因 此 为 了 让 处 理性 能 较 高 的 服务 器 承受 更 多 请 求 ， 
需 增 大 其 加 权 值 即 可 







































































lc (least-connection， 最 小 连接 ) 调度 
该 算法 是 将 新 的 连接 请 求 分 配 到 当前 连接 数 最 少 的 服务 器 。 在 大 部 分 的 情况 下 使 用 
这 个 算法 都 没有 问题 。 在 不 知道 到 底 要 选择 哪 种 算法 合适 的 情况 下 ， 选 择 这 个 准 没 












































日 
wlc (weighted least-connection， 加 权 最 小 连接 ) 调度 


与 上 述 的 lc 有 些 类 似 ， 不 过 该 算法 引入 了 加 权 值 。 由 于 该 算法 通过 <“《〈 连 接 数 +1) = 
加 权 值 ?算出 了 最 小 因数 的 服务 器 ， 所 以 会 更 有 效 地 分 配 连接 。 与 wrr 一 样 ， 加 大 高 
性 能 的 服务 器 的 加 权 值 是 比较 好 的 选择 


sed (shortest expected delay， 最 短 预 期 延 时 ) 调度 


该 算法 会 选择 响应 速度 最 快 的 那 台 服务 器 。 但 它 并 没有 监测 传送 数据 分 组 到 目标 服 
务 器 的 应 答 时 间 ， 而 是 选择 状态 是 ESTABLISHED 的 连接 数 〈 下 文 统称 为 活动 连接 
数 ) 最 少 的 服务 器 。 其 行为 基本 上 和 上 述 的 wlc 一 样 ， 但 wlc 会 把 除 ESTABLISHED 以 
外 的 状态 (TIME_WAIT 或 FIN_WAIT 等 ) 的 连接 数 计算 在 最 小 因数 中 ， 这 点 即 是 wlc 
与 sed 不 同 的 地 方 






































nq (never queue， 不 排队 ) 调度 
与 上 述 的 sed 算 法 类 似 ， 该 算法 会 最 优先 选择 活动 连接 数 为 0 的 服务 器 











针对 真实 服务 器 的 不 同 配置 ， 引 入 了 “加 权 值 ”〈《Weight) 这 一 参数 ， 可 
以 根据 需要 对 加 权 值 进行 合理 的 设 定 。 在 茶 些 算法 中 ， 该 加 权 值 越 大 就 
表示 服务 器 的 处 理 能 力 越 高 ， 据 此 可 以 调节 分 流 比 率 。 在 表 1.3.1 中 的 
算法 行为 一 栏 中 ， 对 每 个 算法 如 何 选择 真实 服务 器 一 一 进行 了 说 明 。 


IPVS 中 还 包含 有 表 1.3.1 中 没有 列 出 的 调度 算法 。 通 过 将 IPVS 和 透明 
代理 〈Transparent Proxy) 或 高 速 绥 存 服务 器 等 并 用 ， 可 以 优化 性 能 。 
虽然 这 里 不 会 用 到 ， 不 过 我 们 还 是 将 这 些 算法 进行 了 整理 ， 如 表 1.3.2 
所 示 。 





表 1.3.2 其 他 的 调度 算法 


sh (source hashing， 源 地 址 散 列 〉 调度 


对 发 出 请 求 的 了 地址 《〈 即 源 地 址 ) 计算 散 列 值 “Hash Value〉， 并 通过 该 值 选择 具体 
分 发 到 哪个 真实 服务 器 





dh 〈destination hashing， 目 标 地 址 散 列 ) 调度 
罗 目标 IP 地 址 计算 散 列 值 ， 并 通过 该 值 选 择 具体 分 发 到 哪个 真实 服 
器 








lblc (locality-based least-connection， 基 于 局 部 性 的 最 小 连接 ) 调度 
在 连接 数 没 有 超过 加 权 值 指定 的 值 时 ， 将 选择 同一 台 服 务 器 。 知 是 超过 了 加 权 值 指 


定 的 值 ， 则 选择 其 他 的 服务 器 。 当 所 有 服务 器 的 连接 数 都 超过 加 权 值 指定 的 值 时 ， 
将 选择 最 终 所 选 的 那 台 服务 器 



































lblcr ‘locality-based least-connection with replication， 带 复制 的 基于 局 部 性 最 小 连 
接 ) 调度 


与 上 述 的 lblc 有 些 类 似 ， 当 所 有 服务 器 的 连接 数 都 超过 加 权 值 指定 的 值 时 ， 将 选择 连 
接 数 最 少 的 那 侣 服务 器 














1.3.4 使 用 IPVS 
可 以 通过 以 下 软件 使 用 IPVS 的 功能 : 
e。 ipvsadm URL http:/www.linuxvirtualserver.org/software/ipvs.html 


e keepalived URL http:/www.keepalived.org/ 


ipvsadm 


ipvsadm 是 由 IPVS 的 开发 商 提 供 的 命令 行 工具 8。 除 了 定义 虚拟 服务 器 
及 分 配 真实 服务 器 等 功能 外 ， 也 可 以 确认 设 定 内 容 和 连接 状态 ， 另 外 也 
能 将 传输 率 等 统计 信息 显示 出 来 。 

8 其 地 位 就 相当 于 netfilter 组 件 与 iptables 命令 之 间 的 关系 。 


keepalived 








keepalived 是 用 C 语言 编写 的 守护 程序 。 可 以 根据 配置 文件 


Getc/keepalived/keepalived.conf) 的 内 容 来 搭建 IPVS 的 虚拟 主机 。 其 
功能 主要 表现 在 : 对 真实 服务 器 进行 健康 检查 ， 并 自动 将 已 经 宕 机 的 服 
务 器 排除 在 负载 均衡 所 分 配 的 范围 外 ;如果 所 有 的 真实 服务 器 全 数 宕 
机 ， 则 会 显示 “服务 器 繁忙 ”等 消 轧 ， 即 具备 sorry_server 功能 。 


截至 2014 年 11 月 ， 最 新 的 版 本 是 keepalived-1.2.13， 该 版 本 文 持 以 下 
健康 检查 。 


。HTTP_GET: 通过 发 送 HTTP 的 GET 请 求 来 确认 目标 服务 器 的 
应 答 情 况 

SSL_GET : 通过 发 送 HTTPS 的 GET 请 求 来 确认 目标 服务 器 的 
应 答 情 况 

TCP_CHECK : 通过 测试 TCP 连接 是 否 正 常 来 确认 目标 服务 器 
的 情况 

SMTP_CHECK : 通过 发 送 SMTP 的 HELO 命令 来 确认 目标 服务 
器 的 应 答 情况 


MISC_CHECK : 通过 执行 外 部 命令 所 返回 的 结束 代码 来 确认 日 
标 服务 器 的 健康 状况 


1.3.5 ”搭建 负载 均衡 器 


接 下 来 使 用 keepalived 搭建 如 图 1.3.1 所 示 的 系统 。 这 里 将 10.0.0.1 作为 
服务 器 使 用 的 全 局 IP 地址 。 在 该 负载 分 发 的 拓扑 结构 中 ， 当 客户 端 访 
问 http://10.0.0.1/ 时 ， 该 请 求 就 会 被 转 到 Web1 与 Web2 进行 处 理 。 其 他 
详细 的 配置 参数 如 下 。 












负载 均衡 器 
192.168.0.254 






192.168.0.2 ( Web2 ) 


图 1.3.1 使 用 猴 载 均衡 器 进行 负载 分 流 
。 调度 算法 : rr (round-robin) 
健康 检查 的 类 别 : HTTP_GET 


健康 检查 的 页 面 : http://health/health.html 

健康 检查 成 功 的 条 件 : 状态 代码 返回 200 

健康 检查 的 超时 时 间 : 5 秒 

代码 清单 1.3.1 是 将 以 上 参数 作为 keepalived 的 配置 文件 进行 编写 的 。 
代码 清单 1.3.1 keepalived 的 配置 





virtual server group example { 
10.0.0.1 80 

} 

virtual server group example { 
lvs_sched rr 
lvs_method NAT 
protocol TCP 
virtualhost health 
real_ server 192.168.6.1 86 { 

weight 1 


HTTP_GET { 
url { 
path /health.html 
status code 266 


} 
connect port 80 
connect timeout 5 
} 
} 
real server 192.168.0.2 80 { 
weight 1 
HTTP_GET { 
url { 
path /health.html 
status code 266 
} 
connect_ port 80 
connect timeout 5 
} 
} 





配置 web 服务 器 


ee keepalived 前 ， 需 要 确认 Web 服务 器 的 配置 ， 必 要 的 操作 有 下 
面 3 点: 


。 设置 默认 网 关 为 192.168.0.254 

。 设置 健康 检查 页 面 

。 设置 用 于 确认 运行 情况 的 页 面 
在 此 拓扑 中 ， 来 自 客户 端 的 请 求 与 来 自 真实 服务 器 的 啊 应 都 必须 经 由 负 
载 均衡 器 ， 因 此 需要 事先 设置 各 Web 服务 器 的 默认 网 关 为 负载 均衡 器 
的 IP 地 址 。 
Keepalived 会 对 真实 服务 器 进行 健康 检查 。 这 里 访问 
http://health/health.html， 并 检查 是 否 会 返回 200 的 状态 代码 ， 
因此 有 必要 在 每 个 Web 服务 器 上 都 设置 一 个 用 来 做 健康 检查 的 页 面 。 


另外 还 需要 准备 好 确认 运行 情况 的 页 面 。 在 确认 运行 情况 时 ， 为 了 更 容 




















易 地 把 握 具 体 分 流 到 了 哪个 服务 器 ， 应 该 特意 将 index.html 写 入 为 不 同 
的 内 容 以 示 区 别 ， 这 里 将 index.html 写 入 主机 名 (Web1、Web2) 。 


启动 keepalived 


请 把 代码 清单 1.3.1 放 到 /ect/keepalived/keepalived.conf 下 ， 然 后 启动 
keepalived，IPVS 的 虚拟 服务 占 束 搭建 好 了 。 如 图 1.3.2 所 示 ， 可 以 使 
用 ipvsadm 命 令 确 认 虚 拟 服 务 器 。 在 图 1.3.2 中 ， 代 码 清单 将 连接 到 
10.0.0.1:80 的 请 求 ， 分 流 到 192.168.0.1:80 与 192.168.0.2:80 两 台 主 机 上 
进行 处 理 ; 


# ipvsadm -Ln 
IP Virtual Server version 1.2.1 (size=1648576) 
Prot LocalAddress:Port Scheduler Flags 
-> RemoteAddress:Port Forward Weight ActiveConn InActConn 


TCP 16.0.0.1:86 rr 
-> 192.168.0.1:80 Masq 1 0 0 
-> 192.168.0.2:80 Masq 1 0 0 





图 1.3.2 确认 虚拟 服务 器 
确认 负载 分 流 


从 客户 端 访问 http://10.0.0.1/， 会 得 出 如 图 1.3.3 所 示 的 结果 。 每 次 访问 
都 会 交 蔡 连接 到 Web1l 与 Web2， 从 而 就 可 以 确认 负载 分 流 的 具体 执行 
情况 。 

$ curl 'http://106.06.0.1/" 


Web1 


$ curl 'http://10.0.0.1/" 
Web2 


$ curl 'http://106.06.0.1/" 
Web1 


$ curl 'http://106.0.0.1/" 
Web2 





图 1.3.3 确认 负载 分 流 


确认 元 余 的 拓扑 结构 


下 面 在 Web2 宕 机 的 情况 下 再 次 答 试 访问 。 从 图 1.3.4 中 能 够 看 出 ， 可 
以 正常 连接 到 Webl 的 主机 。 所 以 能 够 确认 : 在 见 余 的 拓扑 结构 下 ， 即 
使 Web2 停止 工作 也 不 会 产生 错误 ， 依 旧 可 以 正常 访问 。 


$ curl 'http://106.0.0.1/" 
Web1 


$ curl 'http://106.06.0.1/" 
Web1 


$ curl 'http://106.0.0.1/" 
Web1 


$ curl 'http://106.0.0.1/" 
Web1 





图 1.3.4 确认 元 余 的 拓扑 结构 


1.3.6 ”四 层 交 换 机 与 七 层 交 换 机 


前 文 提 到 了 负载 均衡 器 分 为 四 层 交 换 机 与 七 层 交 换 机 两 种 。 虽 说 都 是 进 
行 负载 分 及， 但 两 者 的 处 理 内 容 却 有 很 大 的 差异 。 四 层 交 换 机 通过 解析 
TCP 头等 协议 头 的 内 容 ， 来 决定 分 流 的 目的 地 ， 而 七 层 交 换 机 则 通过 解 
析 软 件 应 用 层 的 内容 ， 来 决定 分 流 的 目的 地 。 


图 1.3.5 表现 了 四 层 交 换 机 与 七 层 交 换 机 的 不 同 点 。 在 四 层 交 换 机 中 ， 
客户 端 (Web 浏览 万) 的 通信 目标 是 真实 服务 器 。 而 在 七 层 交 换 机 中 ， 
负载 均衡 器 和 客户 端 会 先 通过 TCP 会 话 进行 握手 。 也 就 是 说 ， 每 次 访 
问 都 会 经 过 : 客户 端 <=> 七 层 交换 机 中 黑色 的 框 <=> 七 层 交 换 机 中 白色 
的 框 <=> 真 实 服 务 器 《图 中 为 两 台 ) 。 















“选择 分 流 的 服务 器 
"原封 不 动 地 传送 分 组 






“连接 Web 服 务 器 
“发 出 请 求 
“ 收 到 响应 


图 1.3.5 ”四 层 交 换 机 与 七 层 交 换 机 的 不 同 点 

四 层 交 换 机 与 七 层 交 换 机 的 特点 可 以 简明 地 总 结 如 下 : 

。 退 求 设 定 的 灵活 性 就 用 七 层 交 换 机 

。 追求 性 能 就 用 四 层 交 换 机 

专栏 

七 层 交 换 机 的 灵活 设 定 

七 层 交 换 机 可 以 将 类 似 http://example.cn/*.png 这 样 的 图 片 文 
件 发 送 的 请 求 分 配 到 图 片 专用 的 服务 器 进行 处 理 。 而 对 于 像 
http://example.cn/hoge?SESSIONID=xxxxxxxx 这 样 包含 会 话 


ID 的 请 求 ， 七 层 交 换 机 还 可 以 将 同一 会 话 卫 的 请 求 分 配 到 同一 台 服 
务 器 进行 处 理 。 


也 就 是 说 ， 类 似 于 请 求 目 标 URL 等 应 用 软件 协议 的 内 容 ， 可 以 被 作 
为 选择 真实 服务 器 时 的 条 件 使 用 。 相 反 ， 负 载 均衡 器 不 能 识别 的 协 
议 ， 则 自然 无 法 实现 负载 分 流 。 比 如 在 对 SMTP 进 行 负载 分 流 时 ， 

虽说 理论 上 可 以 通过 七 层 交 换 机 实现 “将 特定 收 件 人 的 邮件 发 送 到 
特定 的 服务 器 ?， 但 知 是 负载 均衡 需 不 文 持 SMITP， 那 就 无 法 使 用 。 


如 何 决定 将 什么 样 的 协议 根据 什么 样 的 规则 来 进行 分 流 呢 ?虽说 可 
以 依 徘 负载 均衡 器 所 提供 的 功能 ， 但 “使 用 七 层 交 换 机 就 万 事 大 吉 

了 ”这 样 的 想法 是 要 不 得 的 。 在 选 定 七 层 交 换 机 时 ， 将 想 要 做 的 工 

作 都 准确 无 误 地 确认 好 ， 这 是 很 重要 的 。 


1.3.7 ”四 层 交 换 机 的 NAT 模型 与 DSR 模型 
下 面 对 四 层 交 换 机 的 性 能 优势 做 个 介绍 。 请 先 思 考 一 下 四 层 交 换 机 的 哪 
些 模 型 造就 了 该 拓扑 结构 的 性 能 优势 。 


四 层 交 换 机 可 以 利用 图 1.3.1 中 搭建 的 NAT (Network Address 
Translation， 网 络 地 址 转换 ) 模型 ， 为 了 追求 更 高 的 性 能 ， 也 可 以 搭建 
DSR (Direct Server Returm， 直 接 服 务 器 返回 ) 模型 。DSR 与 NAT 的 不 
同 点 请 参考 图 1.3.6。 











虚拟 服务 器 
y.Y.yYy 


四 层 交换 机 { NAT ) 


X.X.X.X 《一 Y.Y.Y.Y 
XXKX FY.Y.YY XXXX 一 Y.Y.Y.Y 


不 映射 地 址 










虚拟 服务 器 
y.y.yY 
四 层 交换 机 { DSR ) 







图 1.3.6 DSR (下 图 ) 与 NAT (上 图 ) 的 不 同 点 


在 NAT 模型 下 ， 四 层 交 换 机 从 客户 端 收 到 数据 分 组 后 就 修改 分 组 的 目 
的 IP 地址 ， 并 将 分 组 转发 到 真实 服务 器 上 。 因 此 在 真实 服务 器 接收 到 
应 答 数 据 分 组 后 ， 需 要 特别 返回 源 卫 地 址 。 而 在 DSR 模型 下 ，IP 地 址 
并 不 会 被 映射 。 四 层 交 换 机 从 客户 瑞 接 收 到 分 组 后 ， 不 做 任何 修改 束 直 
接 将 分 组 从 路 由 器 发 送 到 真实 服务 右上。 在 这 种 情况 下 ， 由 于 没有 必要 
对 应 答 的 分 组 返回 IP 地 址 ， 因 此 真实 服务 需 即 使 不 经 由 四 层 交 换 机 也 
能 够 返回 应 答 。 


各 担心 负载 均衡 器 出 现 瓶颈 问题 ， 或 者 需要 能 够 承 有 党 高 流量 的 负载 分 发 
环境 ， 这 里 推荐 使 用 DSR 模型 。 顺 带 一 提 ， 在 使 用 keepalived 来 搭建 
DSR 时 ， 请 将 lvs_method 设 定 为 “DR”( 请 注意 在 这 里 不 应 该 设 定 

为 “DSR”) 。 


但 在 DSR 模型 中 ， 发 送 给 虚拟 服务 器 的 分 组 〈 全 局 IP 分 组 ) 没有 做 任 
何 修改 就 原样 到 达 了 真实 服务 器 ， 由 于 真实 服务 器 不 能 处 理 该 全 局 IP 

分 组 ， 因 此 无 法 处 理 该 请 求 。 也 就 可 以 说 ， 对 于 NAT 模型 的 系统 ， 只 
修改 负载 均衡 器 的 设 定 是 没有 办 法 实现 负载 均衡 的 。 





最 简便 的 设 定 方式 是 ， 将 虚拟 服务 喜 的 IP 地 址 映射 到 真实 服务 器 的 环 
回 接口 (Loopback Interface) 上， 男 外 还 有 一 种 方法 是 ， 使 用 netfilter 
的 相关 功能 ， 将 发 给 虚拟 服务 右 的 分 组 的 本 地 源 地 址 映射 为 私有 的 本 地 
全 球 地 址 ( 即 在 本 地 范围 内 扩大 地 址 的 使 用 范围 ， 以 扩展 地 址 的 容 

量 ) ， 这 种 方式 称 为 DNAT (Destination Network Address Translation, 
目的 网 络 地 址 转换 ) 。 


1.3.8 同一 子 网 下 的 服务 器 进行 负载 分 流 时 需要 注意 的 地 方 


至 此 ， 我 们 已 经 探讨 了 公 网 Web 服务 器 的 负载 分 流 。 其 实 负载 均衡 需 
的 用 途 并 不 仅 限 于 此 ， 例 如 在 信息 发 布 系统 中 ， 从 Web 服务 器 到 邮件 
服务 器 可 能 需要 发 送 大 量 邮件 。 奉 只 有 一 人 台 邮 件 服务 顺 来 处 理 ， 想 必 会 
化 不 少时 间 ， 因 此 可 以 考虑 使 用 负载 均衡 右 将 邮件 服务 器 进行 负载 分 
流 。 人 1.3.7， 但 该 拓扑 结构 有 几 扣 需要 






















在 这 样 的 拓扑 结构 中 
无 法 使 用 NAT 







负载 均衡 器 


虚拟 服务 器 
192.168.0.150 





Web 服务 器 邮件 服务 器 邮件 服务 器 
192.168.0.1/24 192.168.0.151/24 ( Maill ) ) (192.168.0.152/24 ( Mail2 ) 





图 1.3.7 同一 子 网 下 的 负载 分 流 


在 同一 子 网 需要 负载 分 流 时 ， 不 能 使 用 NAT 模型。NAT 模型 下 会 映射 
负载 均衡 器 的 源 卫 地 址 ， 比 如 在 邮件 服务 器 中 ， 接 收 到 的 分 组 是 从 源 
地 址 192.168.0.1 发 送 到 目的 地 址 192.168.0.151 的 ， 因 此 该 邮件 服务 器 
返回 的 应 答 分 组 的 源 地 址 是 192.168.0.151， 目 的 地 址 是 192.168.0.1。 正 








因为 源 地 址 192.168.0.151 与 目的 地 址 192.168.0.1 是 同一 子 网 下 的 IP 了 地 
址 ， 因 此 不 会 将 分 组 发 往 负载 均衡 器 ， 而 直接 从 源 地 址 发 送 到 Web 服 
务 器 。 因 此 该 NAT 模型 中 源 地 址 的 卫 地 址 尚未 被 正确 转发 到 目标 服务 
器 ， 进 而 就 造成 了 不 能 正常 完成 通信 。 
该 情况 下 ， 使 用 上 文 介绍 的 DSR 模型 是 比较 好 的 选择 。 因 为 DSR 模型 
不 用 映射 负载 均衡 器 的 IP 地址， 所 以 束 拭 邮件 服务 器 直接 同 Web 服务 
器 返回 应 答 也 完全 没有 问题 。 

专栏 

基于 Linux 平 台 的 七 层 交 换 机 


基于 Linux 平 台 搭 建 七 层 交 换 机 所 使 用 的 软件 还 在 不 断 开 及 中 ， 以 
下 介绍 两 球 软 件 : 


。 UltraMonkey-L7 
URL http://sourceforge.jp/projects/ultramonkey-17/ 
e。 Linux Layer7 Switching 
URL http://zh.sourceforge.jp/projects/freshmeat_ linux-l7sw/ 
UltraMonkey-L7 于 2008 年 1 月 发 布 了 1.0.1-0 版 本 。 截 至 目前 (2014 年 
11 月 ) ， 已 经 更 新 到 了 3.1.1-1 版 。 现 在 使 用 UltraMonkey-L7 已 经 可 
以 搭建 稳健 的 七 层 交 换 机 ， 该 软件 的 实用 性 也 非常 让 人 满意 。 


而 Linux Layer7 Switching 虽 然 于 2007 年 1 月 发 布 了 0.1.2 版 本 ,但 似乎 
之 后 该 软件 并 没有 更 新 ， 该 软件 有 多 大 的 实用 性 现在 还 是 未 知 数 。 





1.4 路 由 器 及 负载 均衡 器 的 元 余 
1.4.1 负载 均衡 器 的 元 余 


到 目前 为 止 ， 我 们 都 只 在 介绍 Web 服务 器 的 见 余 ， 还 尚未 提 及 负载 均 
衡器 的 见 余 。 如 果 仪 有 的 一 台 负 载 均衡 器 发 生 故 障 的 话 ， 那 么 所 有 的 服 
务 都 会 停止 。 虽 说 可 以 使 用 冷 备 份 ， 为 预防 故障 事先 多 准备 一 台 负 载 均 
衡 需 作为 备用 ， 但 是 当 故 障 发 生 时 各 没 有 人 力 干 预 ， 依 旧 无 法 及 时 恢复 


一 /一 


运行 。 
本 节 将 介绍 路 由 器 及 负载 均衡 器 的 故障 转移 的 方法 。 
1.4.2 ”虚拟 路 由 器 见 余 协议 (VRRP) 


现在 市 面 上 有 很 多 包含 元 余 功能 的 路 由 露 与 负载 均衡 融 的 产品 。 以 前 由 
于 产品 之 间 安 装 的 见 余 实现 各 不 相同 ， 因 此 基本 上 都 使 用 厂商 独 有 的 协 
议 。 


当然 不 同 的 协议 间 不 能 相互 兼容 ， 这 会 造成 很 多 不 便 ，Cisco 公司 以 
HSRP (Hot Standby Routing Protocol， 热 备份 路 由 器 协议 ) 为 基础 ， 制 
定 出 了 不 依赖 于 厂商 的 元 余 协议 ， 即 VRRP (Virtual Router Redundancy 
Protocol， 虚 拟 路 由 器 元 余 协 议 ) 。 很 多 路 由 器 及 负载 均衡 器 都 采用 了 
在 RFC 3768? 中 定义 的 VRRP。 上 一 节 中 介绍 的 keepalived 也 使 用 了 
VRRP， 这 样 只 需 再 搭建 一 台 人 负载 均 衡器 ， 并 在 keepalived 添加 相关 的 
设 定 ， 就 可 以 实现 元 余 。 








IURL http://www .ietf.org/rfc/rfc3768.txt 


1.4.3 ”VRRP 的 拓扑 模型 


路 由 器 与 负载 均衡 右 的 故障 转移 的 原理 ， 与 1.1 市 中 讲解 Web 服务 句 的 
故障 转移 流程 时 提 到 的 “健康 检查 ”IP 地 址 的 映射 ?几乎 是 一 样 的 ， 即 检 
但 闻 反 是 否 正常 工作 ， 万 一 出 问题 的 话 ， 备 用 节点 束 会 映射 VIP (虚拟 
地 址 ) ， 发 生 故 障 转移 。 


在 介绍 VRRP 的 搭建 及 设 定 前 ， 我 们 首先 对 VRRP 常用 的 规则 、 术 


语 ， 以 及 其 行为 做 了 如 下 整理 。 使 用 VRRP 时 ， 请 留心 这 些 关 键 
字 : “VRRP 报 文 “ 虚 拟 规则 ID 优先 顺序 ”抢占 模式 ”虚拟 MAC 地 
址 ”。 


VRRP 报 文 


所 谓 健康 检查 ， 一 般 是 指定 期 对 监控 对 象 的 设备 发 出 一 些 请 求 ， 确 认 这 
些 请 求 是 否 取 得 了 应 答 。 而 VRRP 则 通过 相反 的 途径 监控 主 节 点 的 运 
行 ， 即 VRRP 的 主 节点 会 定期 将 VRRP 报 文 (VRRP Packet) 不 断 地 发 
送 到 多 点 传送 地 址 〈224.0.0.18，Multicast Address) 。 由 于 VRRP 报 文 
类 似 于 “播报 ” 主 节 点 可 用 的 信息 ， 因 此 也 被 称 为 “组 播 信 

晨 ”(Advertisement)。 图 1.4.1 是 VRRP 报 文 的 格式 ， 该 报 文 对 以 下 三 
项 数据 进行 了 编排 : 


。IP Address (虚拟 IP 地 址 ， 即 VIP) 




















。 Virtual Rtr ID (虚拟 路 由 器 ID) 
。 Priority〔 优 先 顺序 ) 


0 1 2 3 
012345678906061234567890606123456789061 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
|Version| Type | Virtual Rtr ID| < Priority | Count IP Addrs| 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
| Auth Type | Adver Int | Checksum | 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
IP Address (1) | 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 


十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 

IP Address (n) | 
十 -十 -十 -十 ~ 十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
Authentication Data (1) | 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
Authentication Data (2) | 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 


十 
十 
十 
十 
十 
十 





图 1.4.1 VRRP 报 文 的 格式 类 


※ 引 自 http://www.ietf.org/rfc/rfc3768.txt。 


备用 节点 通常 会 在 正确 接收 到 VRRP 报 文 时 进入 待机 状态 ， 若 一 段 时 间 
没有 收 到 VRRP 报 文 的 信息 ， 备 用 节点 就 会 认为 主 节点 已 经 宕 机 ， 从 而 
局 动 放 障 转移 。 国 此 福 VRRP 中 ， 备 用 季 反 不 会 主动 电 确 认 主 和 的 的 状 


虚拟 路 由 器 ID 


向 事先 决定 的 组 播 地 址 (224.0.0.18) 发 送 VRRP 报 文 时 ， 该 组 播 地 址 
从 头 到 尾 都 不 会 改变 。 如 图 1.4.2 所 示 ， 在 同一 网 络 上 同时 设置 有 多 台 
负载 均衡 器 的 情况 下 ， 所 有 的 VRRP 报 文 都 会 发 向 同一 地 址 。 这 看 起 来 
似乎 会 引起 错误 操作 ， 但 实际 上 VRRP 中 使 用 了 名 为 虚拟 路 由 器 ID 的 
参数 ， 可 以 分 辨 实例 ， 因 此 不 会 出 现 问题 。 如 图 1.4.2 所 示 ， 在 负载 均 
衡器 A、B 与 负载 均衡 器 C、D 中 ， 只 需 对 虚拟 路 由 器 ID 做 出 合理 设 
定 ， 就 能 确保 图 1.4.2 的 拓扑 模型 可 以 正常 工作 。 






负载 均衡 器 人 


( Active ) 
224.0.0.18 


发 送 VRRP 报 文 


发 送 VRRP 报 文 


图 1.4.2 在 同一 网 络 上 设置 多 台 人 负载 均衡 器 
优先 顺序 


在 VRRP 的 折 扑 结构 示例 中 ， 经 常 可 以 看 到 拓扑 结构 由 Active/Backup 

台 设 备 构成 ， 但 在 实际 使 用 中 也 有 可 能 同时 拥有 100 台 以 上 的 备用 节 
点 ， 这 样 束 可 能 会 造成 一 个 问题 ， 当 两 台 以 上 的 备用 市 点 同时 工作 时 ， 
苛 是 主 节点 出 现 问题 ， 那 么 主 节点 具体 要 漂移 到 哪个 备用 节点 呢 ? 


在 VRRP 中 ， 会 为 各 节点 设 定 优 先 顺序 (Priority) 的 值 ， 各 节点 在 接 

收 不 到 VRRP 报 文 时 ， 会 自行 发 出 VRRP 报 文 。 由 于 VRRP 报 文 中 有 

事先 设 定 的 优先 顺序 值 ， 因 此 通过 比较 该 值 ， 就 可 以 迅速 了 解 到 比 本 节 
点 优先 值 高 的 其 他 节点 是 否 存 在 。 万 一 有 其 他 节点 的 优先 值 比 本 节点 

高 ， 则 其 他 节点 会 比 本 节点 优先 升格 为 主 节点 。 虽 然 是 非常 简单 的 操 

作 ， 但 通过 设 定 节点 的 优先 顺序 ， 在 漂移 到 备用 节点 时 ， 就 可 以 从 优先 
顺序 高 的 节点 依次 进行 ， 使 优先 顺序 高 的 备用 节点 作为 主 节点 使 用 。 


抢占 模式 


在 VRRP 的 默认 设 定 中 ， 当 比 现 有 的 主 节 点 优先 顺序 高 的 节点 局 动 时 ， 

会 发 生 故 障 转移 。 也 就 是 说 可 以 认为 优先 顺序 高 的 节点 一 定 是 主 节 点 。 

这 个 行为 可 以 通过 设 定 抢占 模式 〈Preemptive Mode) 进行 改变 。 将 抢 

占 模 式 设 为 无 效 的 情况 下 ， 只 要 主 节点 正常 工作 ， 即 使 其 他 节点 的 优先 
级 比 主 节 点 高 ， 也 不 会 出 现 故障 转移 。 


根据 情况 的 不 同 ， 选 择 的 抢占 模式 也 不 一 样 。 比 如 主 节点 的 情况 已 经 不 
乐观 ， 设 备 很 可 能 会 频繁 重启 ， 这 时 将 抢占 模式 设 为 无 效 是 比较 好 的 选 
择 。 相 反 ， 如 果 是 为 了 防止 操作 失误 而 希望 在 两 节点 都 可 以 选择 时 ， 一 
定 要 漂移 到 特定 的 节点 ， 则 将 抢占 模式 设 为 有 效 会 是 比较 好 的 选择 。 


虚拟 MAC 地 址 


VRRP 中 除了 定义 了 虚拟 卫 地 址 ， 还 定义 了 虚拟 MAC 地 址 。 为 了 完 
成 映射 ， 在 故障 保护 时 ， 不 仅 需 要 映射 卫 地 址 ， 还 需要 映射 MAC 地 
址 。 如 果 在 不 映射 MAC 地 址 的 情况 下 映射 卫 地 址 ， 通 信 目 标 下 所 有 设 
备 的 ARP 绥 存 表 都 需要 更 新 。 为 此 ， 一 般 使 用 1.1 节 介 绍 的 gratuitous 
ARP 进行 ARP 请 求 ， 但 在 以 太 网 〈Ethernet) 的 操作 环境 中 ， 无 法 保证 
所 有 的 设备 都 能 正常 收 到 ARP 请 求 。 万 一 哪个 设备 的 ARP 缓存 表 没 有 
则 直到 该 设备 的 ARP 缓存 更 新 为 止 ， 都 没 办 法 与 这 台 设 备 进行 
过 人 秸 。 


为 此 ， 在 VRRP 中 映射 MAC 地 址 时 ， 需 要 对 通信 目标 的 ARP 请 求 的 






































更 新 进行 特别 处 理 。 例 如 在 RFC 3768 中 ， 在 进入 主 节 点 状态 前 会 发 出 
gratuitous ARP， 其 实 这 样 做 的 目的 不 是 为 了 更 新 通信 目标 的 ARP 绥 存 
表 ， 而 是 为 了 更 新 二 层 交 换 机 中 MAC 地 址 的 学 习 状 态 。 








1.4.4 安装 keepalived 时 可 能 遇 到 的 问题 


在 keepalived 的 VRRP 中 ， 由 于 不 使 用 虚拟 MAC 地 址 ， 因 此 无 法 按照 
RFC 3768 的 方式 进行 安装 。 虽 说 在 Linux 平台 下 可 以 改变 MAC 地 址 ， 
但 因为 无 法 拥有 多 个 MAC 地 址 ， 安 装 的 keepalived 中 束 无 法 使 用 虚拟 
MAC 地 址 ， 所 以 在 故障 转移 时 就 很 可 能 存在 ARP 请 求 还 尚未 更 新 的 设 
备 。 在 这 种 情况 下 ， 直 到 ARP 绥 存 清除 为 止 ， 访 设备 都 无 法 进行 通 


ES 
信 。 


延迟 发 送 gratuitous ARP (GARP) 





为 了 解决 这 个 问题 ，keepalived 中 有 一 个 “grap_master_delay” 的 设 定 项 
目 。keepalived 在 主 节 点 状态 漂移 后 ， 紧 接 痢 就 会 发 出 gratuitous ARP， 
但 在 这 个 瞬间 大 都 存在 网 络 不 稳定 的 状况 ， 例 如 可 能 流量 太 过 于 集中 造 
成 无 法 通信 。keepalived 为 了 确保 让 通信 目标 能 准确 地 接收 到 更 新 ARP 
的 请 求 ， 会 安排 在 等 待 数秒 后 再 发 送 gratuitous ARP。 这 个 等 待 的 时 间 
可 以 在 grap_master_delay 中 设 定 ， 默 认 值 是 5 秒 。 








例如 假设 有 这 样 一 个 系统 : 采用 STP 〈Spanning Tree Protocol， 生 成 树 
协议 ) 搭建 网 络 ， 在 二 层 交换 机 宕 机 后 ， 负 和 载 均衡 器 会 启动 故障 转 
移 。 在 二 层 交 换 机 宕 机 的 瞬间 ，STP 的 收敛 〈Convergence) 开始 进 

行 ， 这 可 能 会 造成 数秒 到 数 十 秒 的 通信 中 断 。 由 于 在 此 期 间 发 送 的 
gratuitous ARP 并 没有 实际 传 到 其 他 节点 ， 因 此 可 以 通过 设 定 
grap_master_delay 在 收敛 完成 后 再 发 送 gratuitous ARP。 在 keepalived 的 
VRRP 实现 中 ， 因 为 存在 与 RFC 3768 中 所 定义 的 内 容 不 一 样 的 地 方 ， 
因此 在 实际 网 络 环境 中 使 用 时 ， 有 必要 验证 是 否 能 够 正确 启动 故障 转 


移 。 














10IFFE 802.1D 规定 了 这 种 链 路 管理 协议 。 








1.4.5 ”keepalived 的 元 余 
接 下 来 ， 使 用 keepalived 搭建 出 如 图 1.4.3 所 示 的 系统 。 图 1.4.3 中 的 


lv1 与 lv2 是 在 Linux 中 安装 了 keepalived 的 负载 均衡 器 。 代 码 清单 
1.4.1 是 1v1 与 lv2 的 keepalived.conf 的 设 定 也。 表 1.4.1 中 解释 了 各 个 参 
数 的 意义 。 


1 代码 清单 1.4.1 中 省 略 了 IPVS (负载 分 流 ) 的 相关 设 定 。 




















Iv2 
10.0.0.253/24 
192.168.0.253/24 


Iv1 
10.0.0.252/24 
192.168.0.252/24 









10.0.0.253/24 
192.168.0.253/24 


虚 以 服 务 絮 


10.0.0.1 


10.0.0.252/24 
192.168.0.252/24 

















Web 服务 器 
192.168.0.1/24 ( Web1 } 


Web 服务 器 
192.168.0.2/24 { Web2 ) 


Web 服务 器 
192.168.0.1/24 { Web1 ) 


Web 服务 器 
192.168.0.2/24 ( Web2 ) 


图 1.4.3 负载 均衡 右 的 见 余 
代码 清单 1.4.1 VRRP 的 设 定 @ (v1 的 示例 ) 





vrrp_instance VI { 
state MASTER 
interface eth6 


garp_master delay 5 
virtual_router_id 266 
priority 161 < 在 lv2 中 修改 为 166 
advert int 1 
authentication { 

auth type PASS 


auth_pass HIMITSU 


} 

virtual ipaddress { 
10.0.0.254/24 dev eth0 
192.168.6.254/24 dev eth1 





表 1.4.1 各 参数 的 意义 


| 
state MASTER 启动 keepalived 的 时 候 ， 指 定 是 作为 MASTER 〈 主 节点 ) 启动 还 











是 作为 BACKUP (备用 节点 ) 启动 


指定 发 出 或 接收 VRRP 报 文 的 接口 


garp_master_delay | 指定 从 主 节 点 状态 漂移 后 ， 到 再 次 发 送 gratuitous ARP 的 间隔 秒 
5 数 























virtual_router id | 虚拟 路 由 器 ID 。 每 个 VRRP 实例 都 要 指定 一 个 独一无二 的 值 ， 
100 可 指定 的 范围 是 0 到 255 














ee VRRP 优先 顺序 的 设 定 值 。 在 选择 主 节点 的 时 候 ， 该 值 大 的 备 月 
PONYy 节点 会 优先 漂移 为 主 节点 
Ce vine 报 文 的 发 送 间 隔 。 以 秒 为 单位 来 指定 。 默 认 值 为 1 秒 


VIP“《〈 虚 拟 地 址 ) 。 书 写 格式 如 下 ， 可 以 同时 指定 两 个 以 上 的 虚 
Virtual_ipaddress | 拟 地 址 
<IPADDR>/<MASK>dev<STRING> 











确认 VIP 


在 1v1 与 lv2 中 启动 了 keepalived 后 ，lvl 就 被 分 配 了 VIP (10.0.0.254 


与 192.168.0. 254) ， 但 这 无 法 通过 ifconfig 命 令 来 确认 ， 可 以 通过 如 
图 1.4.4 所 示 的 ip 命令 进行 确认 。 


lvi:~# ip addr show ethe6 

2: eth6: 《BROADCAST ,MULTICAST,UP> mtu 1566 qdisc pfifo fast qlen 1666 
link/ether xx:xx:xx:xx:xx:xx brd ff:ff:ff:ff:ff:ff 
inet 16.6.6.252/24 brd 16.6.9.255 scope global ethe6 
inet 16.6.6.254/24 scope global eth6 


lvi:~# ip addr show eth1 

3: eth1: <BROADCAST,MULTICAST,UP> mtu 1566 qdisc pfifo fast qlen 1666 
link/ether xx:xx:xx:xx:xx:xx brd ff:ff:ff:ff:ff:ff 
inet 192.168.6.252/24 brd 192.168.6.255 scope global eth1 
inet 192.168.6.254/24 scope global eth1 





图 1.4.4 确认 VIP 

确认 VRRP 的 运行 情况 

故障 转移 的 运行 情况 的 确认 结果 可 总 结 如 下 : 

@ 关闭 Ilvl1 -~ lv2=Master o 

四 月 动 lv1 -~ lv1=Master，lv2=Backup o 

全 将 1v1 的 eth0 网 线 拔 掉 ”lvi=Backup，lv2=Master o 
@ 将 Iv1 的 eth0 网 线 插 回 > lv1=Master，lv2=Backup o 
全 将 Iv1 的 ethl 网 线 拔 掉 >” lv1=Master，lv2=Backup x 


这 样 看 来 ， 在 上 述 第 @ 条 拔 掉 ethl 网 线 时 ， 情 况 似 乎 有 些 奇 怪 。 原 本 
在 lvl 的 ethl 链 路 失效 时 ， 应 该 是 lv1=Backup，lv2=Master。 


分 离 VRRP 实例 


在 以 上 的 设 定 中 ， 因 为 VRRP 报 文 只 有 eth0 传输 数据 ， 所 以 在 ethl 网 
线 拔 挥 时 自然 无 法 检测 出 异常 。 如 果 想 检测 出 多 个 实例 的 故障 ， 就 要 如 
代码 清单 1.4.2 所 示 ， 对 每 个 接口 的 VRRP 实例 都 做 出 定义 。 这 里 请 注 
意 “virtual_router_id” 这 个 参数 ， 在 照搬 vrrp_instance 代码 块 中 的 代码 





时 ， 请 注意 不 要 忘记 蔡 换 相关 的 参数 。 因 为 VRRP 实例 是 根据 
virtual_router_ id 区 分 的 ， 所 以 请 为 每 个 实例 指定 一 个 独一无二 的 值 。 


代码 清单 1.4.2 ”VRRP 的 设 定 @ (v1 的 示例 ) 


vrrp_sync group VG { 
group { 
VE 
VI 


} 


} 


vrrp_instance VE { 
state MASTER 
interface eth6 
garp_master delay 5 
virtual_router_id 266 < 为 每 个 VRRP 实 例 指 定 独 一 无 二 的 值 
priority 161 <1lv2 中 修改 为 166 
advert int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 
} 
virtual ipaddress { 
10.0.0.254/24 dev eth0 


} 





} 


vrrp_instance VI { 
state MASTER 
interface eth1 
garp_master delay 5 
virtual_router_id 261 < 每 个 VRRP 实 例 独 一 无 二 的 值 
priority 161 «lv2 中 请 将 这 里 修改 为 166 
advert int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 
} 
virtual ipaddress { 
192.168.6.254/24 dev eth1 


} 
} 


























同步 VRRP 实例 


代码 块 vrrp_sync_group 是 为 了 实现 多 个 VRRP 实例 的 状态 的 同步 所 需 
要 进行 的 设 定 。 例 如 ， 在 对 外 实例 (VE) 作为 备用 节点 的 情况 下 ， 它 
所 联动 的 对 内 实例 (VI) 也 需要 是 备用 的 。 这 样 在 lv1 中 无 论 eth0 或 

ethl 哪 边 的 网 线 出 现 异 常 ， 也 都 能 够 准确 地 执行 故障 转移 。 


1.4.6 ”keepalived 的 应 用 


之 前 我 们 对 使 用 keepalived 的 VRRP 功能 来 实现 故障 转移 的 详情 进行 了 
说 明 。 


根据 需求 的 不 同 ，keepalived 还 有 其 他 使 用 方法 。 比 如 在 1.1 节 的 图 
1.1.6 的 拓扑 结构 中 ， 如 果 使 用 keepalived 的 话 ， 搭 建 起 来 应 该 就 能 更 加 
方便 安全 。keepalived 中 还 附带 一 个 --vPrp 选 项 ， 据 此 可 以 独立 地 使 用 
VRRP 功能 。 读 者 可 以 先 从 搭建 简单 的 多余 SMTP 服务 器 开始 ， 逐 步 加 
深 对 元 余 的 理解 。 


第 2 章 “优化 服务 器 及 基础 设施 的 
拓扑 结构 一 一 元 余 、 负 载 分 流 、 高 
性 能 的 实现 


2.1 引入 及 癌 代 理 一 一 Apache 模块 
2.1.1 反问 代理 入 门 


第 1 章 通过 引入 负载 均衡 器 ， 实 现 了 Web 服务 器 的 负载 分 流 。 因 为 
IPVS (LVS) 等 负载 均衡 器 只 在 第 四 层 传送 分 组 ， 因 此 在 该 拓扑 结构 
中 ，Web 服务 器 依然 直接 应 答 从 客户 端 应 用 软件 发 来 的 请 求 。 


通过 在 负载 均衡 器 与 Web 服务 器 之 间 加 入 被 称 为 反问 代理 (Reverse 
Proxy) 的 服务 器 ， 可 以 实现 更 具 弹 性 的 负载 分 流 。 反 同 代理 可 通过 
Apache 的 mod_proxy、mod_proxy_balancer 模块 进行 搭建 。 除 Apache 
外 ， 也 可 使 用 lighttpd 或 Squid( 稍 后 讲解 〉 来 进行 搭建 。 


反 回 代理 从 客户 端 取 得 请 求 〈 必 要 的 话 并 加 以 处 理 ) ， 将 该 请 求 转发 到 
适当 的 Web 服务 嚣 。Web 服务 需 收 到 请 求 后 会 像 平时 一 样 进行 处 理 ， 
并 将 结果 返回 反 回 代理 。 反 同人 代理 获取 结果 后 ， 再 将 该 处 理 结 果 的 应 答 
返回 到 客户 端 。 











如 图 2.1.1， 反 辐 代 理 的 工作 即 为 在 客户 端 与 Web 服务 器 之 间 建 立 起 类 
似 代理 的 机 制 。 一 般 的 代理 是 代理 处 理 LAN ~” WAN 的 请 求 ， 而 反 向 
代理 则 是 代理 处 理 WAN -LAN 的 请 求 ， 因 此 才 被 称 为 “ 反 

问 ” (Reverse) 。 


全 请 玉 


@ 响应 





图 2.1.1 反问 代 理 


使 用 反问 代理 ， 通 过 客户 端 请 求 ， 可 以 将 网 页 的 不 同 元 素 分 配 到 不 同 的 
服务 嚣 专项 处 理 ， 下 面 列举 了 反问 代理 的 具体 功能 : 


。 根据 HTTP 请 求 的 内 容 来 控制 系统 的 行为 (与 七 层 交 换 机 的 作用 


类 似 ) 

。 优化 系统 整体 的 内 存 使 用 率 

。 缓存 Web 服务 器 的 应 答 数 据 

。 使 用 Apache 模块 控制 处 理 规则 
以 下 依次 进行 讲解 。 
2.1.2 根据 HITP 请 求 的 内 容 来 控制 系统 的 行为 
因为 IPVS 位 于 第 四 层 ， 所 以 无 法 根据 客户 端 所 需要 的 HITP 请 求 的 内 
容 进行 处 理 的 分 配 。 而 如 果 在 此 引入 有 反 癌 代理， 那么 根据 HTTP 请 求 内 
的 网 址 信息 : 

。 端 请 求 的 网 址 为 /images/logo.jpg， 则 分 配 到 图 片 专用 的 服 





。 后 客户 端 请 求 的 网 址 存在 news， 则 分 配 到 生成 动态 内 容 的 Web 
服务 器 上 


即 可 将 处 理 分 配 到 不 同 的 服务 器 上 进行 (图 2.1.2) 。 


处 理 动态 内 容 的 
/news .ooo Web 服务 器 


全 本 
de 
de 


客户 端 反 向 代理 机 


mages/logo.jpg 两 片 服务 器 
S 尽力 





图 2.1.2 反 向 代理 
使 用 Apache 搭建 反 同 代理 的 情况 下 ， 人 处 理 的 分 配 使 用 的 是 mod_rewrite 
的 RewriteRule 功能 。 通 过 使 用 mod_rewrite 进行 控制 ， 可 以 获得 很 多 强 
大 的 功能 ， 例 如 : 

。 查看 客户 端 IP 地 址 ， 仪 允许 特定 的 IP 地 址 访问 服务 器 


。 通过 查看 客户 端的 User-Agent 《用户 代理 ) ，Web 服务 器 可 根据 
客户 端的 User-Agent 对 客户 疹 返 回合 适 的 数据 


。 将 /hoge/foo/bar 修改 为 /hoge?foo=bar， 再 请 求 Web 服务 器 
以 上 功能 应 该 在 哪里 使 用 呢 ? 以 下 将 进行 说 明 。 
根据 IP 地 址 进行 控制 
通过 IP 地 址 进行 控制 可 以 屏蔽 来 自 恶 意 主 机 的 请 求 。 此 外 ， 在 包含 面 
问 管 理 人 员 的 页 面 的 网 站 中 ， 也 可 同时 通过 卫 地 址 及 网 址 进行 控制 ， 
以 限制 管理 人 员 的 页 面 仅 能 通过 特定 的 卫 进行 访问 。 
根据 User-Agent 进行 控制 


User-Agent 的 控制 是 为 了 应 对 Googlebot、Yahoo! Slurp 等 搜索 引擎 机 器 
人 “(Web Spider， 也 称 蜘 蛛 ) 而 存在 的 。 


比如 ， 假 设 在 面向 用 户 的 网 页 中 存在 难以 缓存 的 动态 页 面 〈 根 据 用 户 显 








示 用 户 名 的 页 面 等 ) ， 而 面向 搜索 引擎 机 器 人 则 没有 必要 显示 这 些 内 
容 ， 那 该 页 面 束 可 以 被 缓存 。 通 过 查看 User-Agent 的 信息 ， 若 是 搜索 引 
擎 机 器 人 的 User-Agent， 则 可 以 直接 经 由 缓存 服务 器 来 处 理 该 请 求 。 


网 址 的 重 写 


为 了 使 网 站 整体 的 层级 结构 更 清晰 ， 我 们 有 必要 使 网 址 让 用 户 看 起 来 更 
简 活 明了 。 原 本 客户 端的 网 页 浏览 器 需要 文 持 动态 网 页 ， 实 现 “ 酯 网 
址 ”1 后 ， 在 不 支持 动态 网 页 的 旧版 浏览 器 中 也 可 浏览 该 网 页 。 这 是 因为 
在 反 同 代理 中 ， 对 该 网 址 进行 了 分 解 重 写 ， 使 得 旧版 浏览 器 能 够 识别 这 
些 伪 静态 〈 将 动态 网 址 重 写 为 静态 ) 的 网 址 。 在 旧版 浏览 器 提交 此 类 链 
接 时 ， 将 伪 静 态 的 网 址 请 求 首 移 提 交 给 反问 代理 ， 由 反 回 代理 将 伪 静 态 
的 网 址 修改 为 动态 网 址 后 ， 再 发 给 动态 服务 器 进行 处 理 。 








1 例如 比 起 http://b.hatena.ne.jp/bookmark.cgi?user=naoya&tag1=perl&tag=2=cpan 这 样 的 网 

址 ，http://b.hatena.ne.jp/naoya/perl/cpan 这 样 的 网 址 更 加 简洁 整齐 、 更 栈 ， 所 以 称 为 酪 网 址 。 详 
情 请 参考 以 下 链接 。 

URL http:/www.w3.org/Provider/Style/URI.html 


2.1.3 ”优化 系统 整体 的 内 存 使 用 率 


在 返回 动态 内 容 的 Web 服务 器 中 一般 称 其 为 AP 服务 器 ) ， 通 常会 将 

应 用 程序 和 常 驻 在 内 存 中 ， 以 避免 在 启动 应 用 程序 时 产生 间接 性 能 成 本 
(Overhead) 。 例 如 用 Java 编写 的 程序 ， 初 次 局 动 确 实 很 花 时 间 ， 知 初 

次 启动 束 第 驻 内 存 ， 以 后 即 可 省 去 启动 浪费 的 时 间 。 在 Perl 或 PHP 

中 ， 通 过 将 mod_perl、mod_php 模块 部 团 到 Web 服务 器 ， 即 可 加 快 应 

用 软件 的 速度 ， 这 与 上 述 常 驻 内 存 的 原理 相同 。 在 FastCGI 中 ， 也 大 致 

使 用 了 同样 的 原理 实现 应 用 的 加 速 。 


在 AP 服务 需 加 速 时 ， 需 要 大 量 的 内 存 空间 。 与 只 返回 静态 内 容 的 Web 
服务 器 相 比 ， 返 回 动态 内 容 的 AP 服务 器 通常 需要 消耗 数 倍 甚 至 数 十 倍 
的 内 存 空间 。 


一 般 AP 服务 器 在 处 理 客 户 端的 单个 请 求 时 ， 会 将 其 分 配 到 单个 进程 或 
单个 线程 进行 处 理 。 在 进程 /线程 中 ， 各 进程 /线程 之 间 都 是 独立 运行 

的 。 这 样 应 用 软件 的 开发 人 员 在 开发 时 就 无 需 考虑 资源 冲突 的 问题 ， 应 
用 软件 的 设计 也 就 更 简单 了 。 




















然而 另 一 方面 ， 在 AP 服务 器 对 单个 请 求 使 用 单个 进程 /线程 来 应 答 
时 ， 若 需 返 回 图 片 及 JavaScript、CSS 等 静态 内 容 ， 即 原样 返回 文件 中 
I 类 文件 分 配 到 静态 服务 器 进行 处 理 ， 以 降低 AP 服务 
妖 的 人 负载。 


例 : 动态 页 面 中 的 请 求 详情 


假设 在 一 个 动态 生成 的 HTML 页 面 中 使 用 了 30 张 图 片 。 就 像 和 4Hatena” 网 
站 的 主页 ?一样 。 该 页 面 是 动态 生成 的 。 


| 2URL http://www.hatena.ne.jp/ 





在 对 该 页 面 的 请 求 中 ， 只 有 初次 请 求 动 态 生 成 了 HTML 页 面 ， 客 户 端 
的 浏览 器 下 载 了 该 页 面 。 浏览 器 将 此 HTML 解析 后 ， 向 服务 器 请 求 了 
需要 的 图 片 及 脚本 文件 ， 共 计 1 个 动态 请 求 +30 个 静态 请 求 。 


一 一 所 有 内 容 均 由 AP 服务 器 应 答 的 情况 

1+30 个 请 求全 由 AP 服务 器 进行 应 答 的 情况 下 ， 虽 然 大 部 分 都 是 返 
回 静 态 的 内 容 ， 但 为 了 处 理 这 唯一 一 个 动态 的 请 求 ， 其 余 30 个 静 
态 请 求 的 应 答 也 会 受到 拖累 ， 消 耗 大 量 的 内 存 。 这 是 因为 图 片 及 动 
态 内 容 的 每 个 请 求 都 需要 一 个 进程 / 线程 进行 应 答 (图 2.1.3) 。 


请 求 动态 内 容 ”请 求 静态 内 容 











且 全 合 信 全 全 全 
AP 服务 器 


消耗 内 存 较 多 的 进程 / 线程 
图 2.1.3 所 有 的 内 容 均 由 AP 服务 器 应 答 的 情况 
一 一 分 配 到 不 同 服 务 器 的 情况 


在 此 将 处 理 分 配 到 不 同 的 服务 器 上 进行 ， 用 Web 服务 器 返回 静态 
内 容 ， 用 AP 服务 器 生成 动态 内 容 (图 2.1.4) 。 这 样 一 来 ， 静 态 内 
容 就 可 以 由 仅 消 耗 少 量 内 存 的 Web 服务 器 来 应 答 ，AP 服务 器 则 只 
对 应 用 程序 的 动态 内 容 应 答 ， 不 仅 提 高 了 系统 整体 的 内 存 使 用 率 ， 
也 提高 了 能 够 并 发 处 理 的 请 求 数 。 








图 2.1.4 分 配 到 两 台 服 务 器 的 情况 


区 由 两 台 服 务 器 分 别处 理 是 个 很 好 的 选择 ， 但 如 何 将 静态 内 容 、 动 
态 内 容 分 离 到 不 同 的 服务 器 呢 ? 这 里 就 该 请 出 反 向 代理 了 。 


o 将 images 目录 下 及 CSS 等 静态 内 容 的 网 址 交 由 Web 服务 器 
o 将 除 此 以 外 的 动态 内 容 的 网 址 交 由 AP 服务 器 


即 针对 网 址 的 内 容 修 改 分 配 的 目的 地 。 可 以 看 出 反问 代理 的 行为 就 
相当 于 七 层 交 换 机 的 处 理 。 


常常 我 们 也 会 将 反 向 代理 作为 静态 服务 占 来 使 用 (由 反问 代理 直接 
返回 静态 内 容 ， 无 需 准 备 其 他 的 服务 占 〉， 束 像 图 2.1.5 那样 将 静 
态 内 容 交 由 反 向 代理 自身 直接 返回 。 











请 求 静态 内 容 
人 
encore 
客户 端 有 反 向 代理 


请 求 动 态 内 容 


图 2.1.5 一 般 的 结构 
2.1.4” 绥 存 Web 服务 器 的 应 答 数 据 


反问 代理 分 离 出 了 AP 服务 器 ， 为 AP 服务 器 提供 了 一 个 缓冲 ， 这 是 非 
常 关键 的 一 点 。 特 别 是 要 使 用 HTTP 的 Keep-Alive 功能 时 ， 反 向 代理 的 
存在 就 显得 尤为 重要 。 


HTTP 的 Keep-Alive 


HTTP 中 有 一 个 Keep-Alive 功能 ， 在 茶 个 客户 端 一 次 性 将 多 个 内 容 从 同 
一 台 服 务 器 读 取 时 ， 经 常会 用 到 该 功能 。 以 之 前 举 出 的 显示 了 30 个 图 
片 的 HTTP 页 面 为 例 ， 通 常 每 个 HTTP 请 求 都 需要 与 服务 器 重复 进行 连 
接 、 切 断 、 连 接 .……. 的 操作 ， 处 理性 能 并 不 高 。 若 在 第 一 次 请 求 完成 后 
保持 连接 不 切断 ， 当 再 次 请 求 时 ， 直接 使 用 以 前 建立 过 的 连接 ， 即 可 实 
现 用 一 次 连接 来 处 理 更 多 的 请 求 。 


要 实现 该 功能 就 需要 使 用 Keep-Alive。 只 需 在 服务 器 中 设 定好 Keep- 
Alive， 浏 览 器 即 可 根据 HTTP 头 判 断 是 否 启 用 Keep-Alive。 局 用 时 ， 浏 
览 句 依照 Keep-Alive 的 规定 保持 与 服务 器 的 连接 ， 只 雷 一 个 连接 就 可 实 
现 多 个 文件 的 下 载 。 事 实 上 与 关闭 Keep-Alive 的 服务 器 相 比 ， 开 启 该 功 
能 的 服务 器 的 下 载 速度 明显 会 快 一 些 。 

使 用 Keep-Alive 保持 连接 时 ， 理 论 上 会 加 重 Web 服务 器 的 负载 。 具 体 
来 说 ， 从 收 到 某 个 特定 的 客户 问 的 请 求 开始 ， 在 一 定时 间 内 ， 进 程 / 线 
程 会 被 占用 以 应 答 客 户 端的 请 求 ”。 


3lighttpd 等 采用 事件 模式 的 Web 服务 器 则 并 不 一 定 如 此 。 











例 : 内 存 消耗 与 Keep-Alive 的 开启 /关闭 


首先 从 内 存 消 耗 的 角度 来 考虑 该 情况 。 在 每 个 进程 消耗 较 多 内 存 的 AP 
服务 器 中 ， 一 台 主 机 能 启动 的 最 大 进程 数 仅 有 50 一 100 个 左右 。 若 不 
使 用 反 辐 代理 而 开启 Keep-Alive， 那 么 在 这 为 数 不 多 的 50 ~ 100 个 进 
程 中 ， 大 部 分 都 会 为 保持 Keep-Alive 的 连接 而 被 消耗 掉 (图 2.1.6) 。 





Keep-Alive 







2 
户 病 


图 2.1.6 为 保持 Keep-Alive 的 连接 而 使 进程 被 消耗 


藻 Keep-Alive 关闭 ， 从 客户 问 就 可 明显 感觉 到 浏览 速度 变 慢 。 这 不 是 我 
们 想 要 的 结果 。 


下 面 考 虑 一 下 增设 反 向 代理 的 情况 。 通 常 作 为 反 向 代理 工作 的 Web 服 
务 器 中 ， 由 于 每 个 进程 消耗 的 内 存 并 不 多 ， 一 台 主 机 可 以 启动 1,000 一 
10,000 个 进程 。 这 种 情况 下 ， 即 便 Keep-Alive 为 了 保持 连接 而 消耗 一 定 
程度 的 进程 ， 也 不 会 增 大 负载 。 然 后 ， 只 在 客户 端 与 反 向 代理 间 开 启 
Keep-Alive， 反 向 代理 与 后 端的 AP 服务 器 间 则 关闭 Keep-Alive (图 
pp 








消耗 内 存 较 少 的 进程 / 线程 






Keep-Alive 


消耗 内 存 较 多 的 进程 / 线程 


图 2.1.7 Keep-Alive 的 开启 /关闭 


这 样 即使 AP 服务 器 的 进程 数 较 少 ， 在 一 个 请 求 结束 后 也 可 立刻 应 管 别 
的 请 求 。 整 体 看 来 能 够 并 发 处 理 的 请 求 数 有 所 增加 ， 厨 吐 量 的 承载 能 力 
也 显 车 提高 了 。 因 为 反 同 代理 承担 了 与 客户 端 保持 连接 的 任务 ， 而 消耗 
i 的 AP 服务 器 则 不 用 承担 该 任务 ， 照 此 即 可 搭建 民 好 的 服务 器 
石 扑 结 爸 。 


2.1.5 ”使 用 Apache 模块 控制 处 理 规则 


在 反问 代理 使 用 Apache 搭建 的 情况 下 ， 该 反问 代理 可 以 通过 利用 
Apache 的 模块 ， 在 程序 中 控制 HTTP 请 求 的 前 端 /后 端的 行为 。 


例如 ，Apache2.2 的 源码 中 附带 了 mod_deflate 模块 ， 该 模块 可 将 网 页 
内 容 使 用 gzip 压缩 。 知 在 反 回 代理 中 使 用 此 模块 ， 就 可 以 将 后 端的 AP 
服务 器 返回 的 HTTP 应 答 进 行 压缩 ， 然 后 再 通过 反 回 代理 返回 客户 端 

(图 2.1.8) 。 同 样 ， 若 使 用 mod_ssl 模块 ， 还 可 将 AP 服务 器 返回 的 应 
答 进行 SSL 加 密 处 理 。 


一 








图 2.1.8 使 用 mod_deflate 模块 的 情况 

另外 ，Apache2.2 中 还 有 用 来 应 对 DoS 攻击 的 mod_dosdetector 模块 

4， 该 模块 可 在 某 个 客户 端 发 出 过 多 请 求 时 ， 临 时 隔离 这 些 请 求 。 若 将 
其 合理 设置 在 反 疝 代理 中 ， 即 可 防止 后 端的 AP 服务 器 因 承 受过 多 的 请 
求 而 超出 负载 。 


| 4URL http://sourceforge.net/projects/moddosdetector/ 








除 Apache 外 ，lighttpd 等 第 三 方 的 模块 及 插件 也 有 很 多 ， 在 反问 代理 中 
使 用 这 些 功能 ， 同 样 会 为 生产 环境 增光 添彩 。 


增设 反问 代理 的 判断 

在 使 用 AP 服务 器 发 布 动态 内 容 的 情况 下 ， 反 问 代 理 的 存在 与 否 会 对 系 
统 的 灵活 性 产生 很 大 的 影响 。 即 使 只 有 一 人 台 主 机 ， 通 过 在 该 主机 内 同时 
运行 反 同 代理 与 AP 服务 器 ， 将 “静态 内 容 的 发 布 工 作 与 后 端 AP 服务 
器 ”分 离 进行 ， 也 可 提高 资源 的 使 用 效率 。 

所 以 真 的 找 不 到 不 增设 反 回 代理 的 理由 啊 ! 

2.1.6 ”增设 反问 代理 


以 下 对 使 用 Apache 搭建 反 同 代理 的 方法 ， 以 及 所 搭建 的 反 回 代理 的 各 
种 设 定 进 行 讲解 。 

使 用 Apache 2.2 

搭建 反 向 代理 最 好 使 用 稳定 版 的 Apache 2.2?。 另 外 ， 鉴 于 prefork 会 为 


每 个 客户 端 分 配 一 个 进程 ， 为 了 证 反 回 代理 尽 可 能 地 承受 更 多 的 并 发 
量 ， 建 议 使 用 “worker 模式 ”， 因 为 该 模式 只 需 为 每 个 客户 端 分 配 一 个 线 











程 即 可 。 


5 本 节 中 使 用 了 CentOS 4.4 和 Apache 2.2.4。 





以 worker 模式 启动 httpd 
在 Red Hat Enterprise Linux 5 及 CentOS 5 的 标准 软件 包 内 默认 附带 了 


Apache 2.2， 一 般 无 需 另 外 安装 。 在 Rad Hat 中 可 以 选择 服务 器 启动 时 
运行 的 软件 包 模 式 ， 只 需 在 /etc/sysconfig/httpd 中 加 入 一 行 : 


HTTPD=/usr/sbin/httpd.worker 


即 可 实现 以 worker 模式 启动 httpd。 

httpd.conf 的 配置 

以 下 讲解 将 Apache 作为 反问 代理 运行 所 需要 进行 的 准备 工作 。Apache 
服务 器 的 一 个 重要 特性 就 是 其 模块 化 的 结构 ， 即 DSO (Dynamic Shared 
Object， 动 态 共享 对 象 ) 的 特性 。 

设 定 最 大 进程 /线程 数 

首先 设 定 worker 的 进程 和 线程 数 。 





StartServers 2 
MaxClients 156 
MinSpareThreads 25 
MaxSpareThreads 75 
ThreadsPerChild 25 


MaxRequestsPerChild 6 





默认 的 httpd.conf 中 全 局 指令 〈Global Directives) 的 配置 如 上 所 示 ， 该 
设 定 参数 均 为 保守 值 。 因 为 我 们 希望 反 回 代理 能 够 承受 较 高 的 负载 以 保 
护 后 问 服 务 器 ， 因 此 可 以 多 使 用 些 系统 资源 ， 以 确保 反 回 代理 能 够 同时 
处 理 足 够 多 的 请 求 数 。 


以 上 需要 关注 的 参数 为 MaxClients 及 ThreadsPerChild。 使 用 worker 





模式 的 情况 下 ，Apache 会 局 动 多 个 子 进程 ， 并 在 各 个 子 进程 中 生成 多 
个 线程 ， 这 样 一 来 就 能 处 理 可 观 的 请 求 量 了 。 


此 处 的 ThreadsPerChild 控制 各 个 进程 中 的 线程 数 ， 这 里 子 进程 的 最 大 
值 《 即 子 进程 的 数量 ) 就 是 : 


MaxClients :- ThreadsPerChild 


MaxClients 决定 了 能 够 同时 处 理 的 客户 端 访问 忌 数 。 例 如 在 前 文 那样 的 
设 定 的 情况 下 ， 即 为 


。 最 大 进程 数 : 6 
。 单位 进程 的 最 大 线程 数 : 25 
。 所 文 持 的 客户 端 并 发 数 : 6x25 = 150 


各 安 装 有 2GB 一 4GB 的 内 存 ， 即 可 承受 1,000 ~ 10,000 左右 的 并 发 
量 。 例 如 ， 


。 最 大 进程 数 : 32 
。 单位 进程 的 最 大 线程 数 : 128 
。 所 文 持 的 客户 端 并 发 数 : 32x128 = 4096 
若 需 实现 以 上 情况 ， 可 按照 以 下 的 具体 参数 进行 设 定 : 











StartServers 
ServerLimit 
ThreadLimit 
MaxClients 








MinSpareThreads 
MaxSpareThreads 
ThreadsPerChild 
MaxRequestsPerChild 








可 以 看 出 新 增 了 ServerLimit 及 ThreadLimit 这 两 个 项 目 。 





ServerLimit/ThreadLimit 的 设 定 决 定 了 最 大 进程 /线程 数 ，MaxClients 及 
ThreadsPerChild 是 一 组 与 ServerLimit/ThreadLimit 相对 应 的 设 定 项 目 。 
为 ServerLimit 的 默认 值 是 16，ThreadLimit 的 默认 值 是 64， 所 以 在 需 


目 


要 实现 比 该 默认 值 高 的 进程 /线程 数 的 情况 下 ， 必 须 明 确 指定 这 两 个 项 


ServerLimit/ThreadLimit 与 内 存 的 关系 


然而 ， 既 然 已 经 有 MaxClients 及 ThreadsPerChild 决定 最 大 进程 / 
线程 数 ， 那 为 什么 还 要 设置 男 一 组 参数 ServerLimit 及 ThreadLimit 
呢 ? 这 是 因为 MaxClients 及 ThreadsPerChild 是 服务 器 方 有 关 动 态 
资源 消耗 的 设 定 项 目 ， 该 值 的 高 低 对 服务 器 的 资源 消耗 量 没 有 影 
啊 。 而 ServerLimit 及 ThreadLimit 则 会 影响 Apache 所 确保 的 共享 
内 存 的 大 小 。 寿 将 这 些 项 目的 设 定 值 设 定 得 比 必要 值 还 高 ， 束 会 导 
致 内 存 空 间 的 浪费 。 因 此 ， 知 进程 数 /线程 数 的 目标 设 定 值 超 过 了 
ServerLimit 16 及 ThreadLimit 64， 束 有 必要 仔细 其 酌 以 确保 合理 设 
定 。 


进程 / 线程 的 内 存 使 用 量 与 启动 的 模块 种 类 有 关 。 由 于 系统 分 配 内 
存 给 Apache 时 需要 看 具体 环境 ， 因 此 无 法 决定 该 设 定 值 。 此 处 的 
配置 仅 做 参考 。 至 于 在 实际 使 用 的 环境 中 如 何 设 定 上 限 值 ， 还 需 具 
体 评估 进程 / 线程 的 内 存 使 用 量 。 关 于 这 部 分 内 容 ， 我 们 将 在 第 4 
章 进行 详细 讲解 。 
设 定 某 个 Web 服务 器 的 最 大 进程 / 线程 数 时 ， 应 该 确保 该 主机 在 达 
到 访问 上 限时 不 会 启用 Linux 的 SWAP 交换 区 ， 即 : 

o 系统 或 Web 服务 器 以 外 的 软件 常 驻 所 使 用 的 内 存量 


o Web 服务 器 的 进程 /线程 数 达 到 上 限时 ， 服 务 占 消耗 的 总 内 
存量 
计算 以 上 两 者 的 总 和 ， 并 兼顾 实际 可 使 用 的 内 存 总 量 进行 设 定 。 关 
于 识别 单位 进程 /线程 的 内 存 使 用 量 的 方法 ， 将 在 第 4 章 详 细 讲 
解 。 




















Keep-Alive 的 配置 


如 前 所 述 ， 开 启 反 问 代 理 的 Keep-Alive 并 关闭 AP 服务 器 的 Keep-Alive 
是 关键 。 对 全 局 指令 做 出 如 下 设 定 即 可 开启 Apache 的 Keep-Alive。 


KeepAlive On 
MaxKeepAliveRequests 166 


KeepAliveTimeout 5 





以 上 设 定 指 示 了 下 面 的 内 容 。 
。 开启 Keep-Alive 
。 指定 Keep-Alive 所 处 理 的 最 大 请 求 数 为 100 


。 指定 Keep-Alive 的 超时 数 〈KeepAliveTimeout， 与 客户 端 保持 连 
接 的 时 间 ) 为 5 秒 * 


KeepAlive Timeonut 的 默认 时 间 为 15 秒 。 在 一 般 的 Web 网 站 中 ， 应 该 可 
以 在 5 秒 内 返回 响应 ， 辱 该 值 偏 大 ， 仪 进程 /线程 的 Keep-Alive 就 会 占 
用 很 多 时 间 ， 导 致 服务 器 的 资源 被 大 量 消耗 。 所 以 将 默认 值 设 定 为 比 
15 秒 更 小 的 数字 不 会 有 什么 问题 。 


载 入 必要 的 模块 


接 下 来 应 该 配置 的 是 载 入 必要 的 模块 。 拱 建 反 回 代 理 所 需 的 基本 的 模块 
有 下 面 几 种 : 





e mod rewrite 
e。 mod proxy 
e。 mod proxy_http 


添加 以 上 模块 时 ， 还 需 载 入 “mod_alias” 模 块 。 


LoadModule alias module modules/mod _ alias.so 
LoadModule rewrite module modules/mod rewrite.so 


LoadModule proxy_module modules/mod proxy.so 
LoadModule proxy_http module modules/mod proxy_http.so 





将 这 些 模块 载 入 后 ， 即 可 使 用 RewriteRule 及 RewriteRule 中 的 Proxy、 
Alias 等 指令 。 

默认 情况 下 ，Apache 安装 包 的 httpd.conf 中 载 入 了 很 多 模块 。 由 于 载 入 
不 必要 的 模块 会 加 大 Apache 的 内 存 消耗 量 ， 因 此 请 尽量 减少 不 必要 的 
模块 的 加 载 。 


设 定 RewriteRule 








在 完成 ServerRoot 及 权限 日 志 等 的 设 定 后 6， 最 后 就 要 设 定 RewriteRule 
了 ， 这 是 搭建 反 同 代理 的 核心 。 


6 关于 Apache 的 基本 设 定 ， 请 参考 Apache 的 使 用 





山 








手册 。 
这 里 考虑 进行 以 下 设 定 : 
。 当 访 问 /image 目录 下 的 图 片 时 ， 此 类 网 址 由 反问 代理 自身 处 理 。 
所 有 图 片 都 在 反问 代理 主机 内 的 /path/to/images/ 目录 下 存放 
。 对 /css、/js 也 做 以 上 处 理 


。 除 此 以 外 的 动态 内 容 的 处 理 ， 请 求 AP 服务 器 192.168.0.100 进行 
代理 
该 设 定 如 代码 清单 2.1.1 所 示 。 
代码 清单 2.1.1 ”RewriteRule 等 的 设 定 


Listen 86 
<VirtualHost *:80> 
ServerName naoya.hatena.ne.jp 


Alias /images/ "/path/to/images/" 
Alias /css/ "/path/to/css/" 


Alias /js/ "/path/to/js/" 


RewriteEngine on 

RewriteRule ^/(images|css|js)/ - [L] «<@ 

RewriteRule ^/(.*)$ http://192.168.0.166/$%1 [P,L] <*@ 
</VirtualHost> 





请 看 RewriteRule 的 内 容 。RewriteRule 将 请 求 的 网 址 进行 模式 匹配 
CPattern Match) ， 若 匹配 成 功 ， 则 将 指示 其 做 出 相应 的 处 理 。 

RewriteRule 可 以 通过 正则 表达 式 定 义 。 在 代码 清单 2.1.1 中 ，@ 处 的 

配置 原则 是 : 

无 论 遇 到 任何 包含 /images/、/css/、/js/ 的 URL， 都 执行 匹配 的 动作 
([L] 是 RewriteRule 的 匹配 模式 在 此 结束 的 意思 ) ， 默 认 通 过 内 容 处 

理 器 (ContentHandler) 返回 内 容 


从 默认 的 内 容 处 理 占 返回 静态 文件 ， 根 据 URL 查找 啊 应 内 容 并 返回 到 
客户 端 ， 这 是 Apache 的 一 贯 动作 。 


根据 该 配置 ， 当 客户 端 发 出 请 求 时 ， 知 该 请 求 为 
/images/profile/naoya.png， 本 地 的 /path/to/images/profile/naoya.png 就 会 
被 返回 到 客户 端 。 

根据 以 上 内 容 做 出 代码 清单 2.1.1 的 多 处 的 设 定 ， 即 : 

对 全 部 URL 的 请 求 均 由 192.168.0.100 进行 代理 


如 此 便 设 定 完毕 。 这 时 如 果 通 过 浏览 器 访问 反问 代理 所 监听 的 端口 ， 就 
会 显示 192.168.0.100 返回 的 内 容 ， 束 像 是 AP 服务 器 做 出 了 应 答 。 








2.1.7 进一步 对 RewriteRule 进行 设置 
以 下 逐步 介绍 RewriteRule 的 设 定 例子 。 
禁止 来 和 目 特定 主机 的 请 求 


例如 ， 蔡 止 来 自 特 定 卫 地 址 的 请 求 ， 使 其 返回 403 错误 代码 的 设 定 如 
代码 清单 2.1.2 所 示 。 


代码 清单 2.1.2 设 定 示 例 1 








RewriteEngine on 





# 若是 192.168.6.266 的 请 求 ， 则 向 客户 端 返 回 463 
RewriteCond %{REMOTE ADDR} ^192\.168\.6\.200$ 
RewriteRule .* - [F,L] 





# 反 辐 代理 的 设 定 
RewriteRule ^/(images|css|js)/ - [L] 
RewriteRule ^/(.*)$ http://192.168.6.166/$1 [P,L] 





在 代理 AP 服务 器 之 前 ， 通 过 进行 条 件 判断 的 RewriteCond 查看 
REMOTE_ADDR， 即 可 对 特定 地 址 返回 403 信息 ”。 





7 使 用 RewriteRule 的 标志 [F,L]。 





对 于 来 自 搜 索引 稳 机 器 人 的 请 求 使 用 缓存 服务 占 


假设 使 用 Squid 等 架设 的 HTTP 缓存 服务 器 被 配置 在 192.168.0.150。 若 
想 要 针对 来 自 搜索 引擎 机 器 人 的 请 求 进行 特殊 配置 ， 也 就 是 对 特定 
User-Agent 的 请 求 直接 返回 已 经 缓存 的 内 容 ， 可 以 如 代码 清单 2.1.3 那 
样 进 行 设 定 。 


代码 清单 2.1.3 ” 设 定 示例 2 








# 为 了 使 SetEnvIf 指 令 生 效 ， 需 要 读 取 mod_setenvif 
LoadModule setenvif module modules/mod setenvif.so 


# 和 若 User-Agent 中 包括 “Yahool Slurp” 或 “Googlebot” 
# 则 环境 变量 IsRobot 为 真 

SetEnvIf User-Agent "Yahoo! Slurp" IsRobot 
SetEnvIf User-Agent "Googlebot" IsRobot 





RewriteEngine on 





# 知 环 境 变量 为 真 ， 则 代理 缓存 服务 器 
RewriteCond %{ENV:IsRobot} .+ 
RewriteRule ^/(.*)$ http://192.168.60.156/$1 [P,L] 












































# 除 此 以 外 的 情况 下 按照 如 下 方式 处 理 
RewriteRule ^/(images|css|js)/ - [L] 
RewriteRule ^/(.*)$ http://192.168.60.160/$1 [P,L] 














使 用 mod_setenvif 根据 User-Agent 的 文本 判断 是 否 为 来 自 搜索 引擎 机 如 
人 的 访问 ， 知 判定 确实 为 搜索 引擎 机 器 人 ， 则 代理 到 缓存 服务 器 。 


Apache 的 mod_rewrite 可 与 其 他 的 模块 等 配合 使 用 ， 实 现 弹 性 化 的 强大 
设 定 。 因 此 只 要 满足 RewriteRule 描述 的 条 件 ， 融 总 能 分 配 到 其 他 服务 
Bs 





2.1.8 使 用 mod_proxy_balancer 向 多 台 主 机 分 流 


在 此 讨论 当 有 多 台 后 并 AP 服务 器 的 情况 下 该 永 用 哪 种 拓扑 结构 。 下 面 
有 几 个 方案 可 供 思 考 : 


@ 反 向 代理 与 AP 服务 器 总 是 成 对 配置 。 将 请 求 从 特定 代理 传递 到 特 
定 AP 服务 器 


四 使 用 mod_proxy_balancer， 将 请 求 从 特定 反问 代 理 分 配 到 多 个 AP 
服务 器 (图 2.1.9) 


@ 在 反 向 代理 与 AP 服务 器 之 间 插 入 LVS 








图 2.1.9 使 用 mod_proxy_balancer 


在 上 述 内 容 中 ，@ 不 能 说 是 明智 的 选择 。 反 向 代理 肯定 比 AP 服务 器 
的 资源 消耗 少 ， 而 且 也 需要 它 来 承担 那些 即使 资源 消耗 小 也 能 正常 进行 
的 工作 。 因 此 在 通常 的 系统 中 ， 出 于 对 见 余 的 考量 ， 设 置 两 全 反问 代理 
己 经 足够 。 但 受 负载 情况 的 影响 ， 很 多 情况 下 仅 有 两 合 后 端 AP 服务 器 
是 不 够 的 。 例 如 在 本 书 执笔 时 ，Hatena 书签 * 就 是 由 两 台 反 向 代理 与 








11 台 AP 服务 器 组 成 的 拓扑 结构 。 


8URL http://b.hatena.ne.jp/ 





由 于 有 反问 代理 与 AP 服务 器 的 资源 消耗 不 同 ， 寿 是 成 对 配置 ， 反 同 代 理 
方面 势必 会 造成 无 剖 的 资源 浪费 。 


四 中 Apache 的 mod_proxy_balancer 这 一 模块 的 作用 是 ， 在 进行 反 向 代 
理 时 ， 将 请 求 通过 某 种 算法 分 配给 代理 目标 的 多 台 主 机 。 如 果 代 理 的 目 
标 主机 没有 办 法 返回 应 答 ， 则 会 启动 故障 转移 ， 使 请 求 不 会 代理 给 该 主 
机 ， 即 可 实现 代理 到 后 端的 请 求 总 是 会 分 配 到 正常 工作 的 主机 。 利 用 好 
该 模块 的 这 点 特征 是 一 个 方法 。 


另 一 个 方法 是 ， 在 反 回 代理 与 AP 服务 器 之 间 插 入 LVS+keepalived， 即 
全 . 这 确实 是 很 实用 的 方法 ， 根 据 笔 者 个 人 的 使 用 感受 ，LVS 的 故障 
转移 功能 并 不 输 于 mod_proxy_balancer。 男 外 在 LVS+keepalived 与 
mod_proxy_balancer 的 较量 中 ，LVS+keepalived 的 情况 下 负载 分 流 的 逻 
辑 更 容易 调整 ， 而 且 也 可 以 通过 命令 行进 行 管理 ， 相 当 方 便 。 


但 LVS+keepalived 需要 事先 增加 硅 干 个 服务 器 。 以 下 以 想 要 进行 简易 
的 负载 分 流 为 例 ， 讲 解 mod_proxy_balancer 的 使 用 方法 。 


mod_proxy_balancer 的 使 用 示例 
使 用 mod_proxy_balancer 搭建 反 辐 代理 是 很 简单 的 。 











。 加载 mod_proxy_balancer 模块 3 
。 在 BalancerMember 指令 中 定义 分 流 目的 地 的 主机 一 览 


。 对 反问 代理 进行 RewriteRule 设 定 〈 规 则 重 写 设 定 ) 。 在 此 可 使 
用 balancer://Scheme 的 形式 





9mod_proxy_balancer 是 Apache 2.2 中 的 标准 功能 。 


假设 AP 服务 器 有 3 台 ， 了 P 地 址 是 192.168.0.100 一 102。 这 里 的 
httpd.conf 的 设 定 如 代码 清单 2.1.4 所 示 。 


代码 清单 2.1.4 通过 mod_proxy_balancer 搭建 反 向 代理 的 设 定 示例 


# 加 载 mod_proxy_balancer 模 块 
LoadModule proxy_balancer module modules/mod proxy_balancer .so 


# 定义 分 流 目的 地 的 主机 一 览 

<Proxy balancer://backend> 
BalancerMember http://192.168.6.166 loadfactor=16 
BalancerMember http://192.168.6.161 loadfactor=16 
BalancerMember http://192.168.6.162 loadfactor=16 

</Proxy> 


Listen 86 
<VirtualHost *:80> 
ServerName naoya.hatena.ne.jp 


Alias /images/ "/path/to/images/" 
Alias /css/ "/path/to/css/" 
Alias /js/ "/path/to/js/" 











# 设 定 反 向 代理 

RewriteEngine on 

RewriteRule ^/(images|css|js)/ - [L] 

RewriteRule ^/(.*)$ balancer://backend/$1 [P,L] <*@ 
</VirtualHost> 











请 看 代码 清单 2.1.4。 之 前 的 例子 中 都 是 直接 写 http://192.168.0.100/$1 与 
AP 服务 器 的 网 址 ， 而 本 次 则 使 用 “balancer://Scheme” 这 种 形式 。 当 
表述 为 balancer://backend 时 ， 每 个 请 求 都 会 选择 上 层 中 定义 的 
BalancerMember 中 的 一 台 。 人 至 于 具体 为 哪个 服务 器 ， 则 与 
BalancerMember 中 定义 的 loadfactor 的 值 有 关 。1oadfactor 的 值 越 大 ， 则 
被 分 配 的 概率 越 高 。 像 代码 清单 2.1.4 那样 ， 设 定 loadfactor 均 为 同一 值 
的 话 ， 即 可 获得 均等 的 分 配 效 果 。 


mod_proxy_balancer 中 还 存在 除 loadfactor 以 外 的 设 定 值 。 在 实际 使 用 
中 ， 应 该 根据 网 站 的 结构 设 定 合适 的 数值 。 





2.2 ”增设 绥 存 服务 器 一 一 Squid、memcached 
2.2.1 引入 缓存 服务 器 


在 2.1 市 中 已 经 针对 反 向 代理 进行 了 讲解 。 接 下 来 ， 本 市 将 要 讨论 缓存 
服务 器 的 详情 。 


HTTP 与 绥 存 
在 网 络 服务 所 使 用 的 协议 中 ，HTTP 是 稀 朴 的 协议 ， 即 具有 无 状态 已 的 


属性 。 因 为 由 一 个 无 状态 的 协议 所 交换 的 文件 不 具备 状态 ， 因 此 具有 易 
绥 存 的 特性 。 所 以 在 HITP 协议 中 ， 提 供 了 非常 强大 的 缓存 机 制 。 





10 关 于 HTTP 无 状态 协议 ， 请 参考 以 下 链接 。 
URL http://baike.baidu.com/view/4551466.htm 


例如 在 Internet Explorer (IE)〉 或 Firefox 等 大 多 数 Web 浏览 器 中 ， 当 初 
次 访问 下 载 该 文件 时 ， 浏 览 髓 会 将 其 组 存在 本 地 ， 当 再 次 访问 时 ， 将 直 
接 从 本 地 调 出 该 文件 。 在 浏览 器 中 ， 为 了 碍 看 远程 文件 是 否 已 经 更 新 ， 
可 以 使 用 HITP 头 蔡 换 服 务 器 与 文档 的 修改 日 期 。 


通过 Live HTTP Headers 得 知 缓存 效果 





通过 使 用 Fierfox 浏览 器 的 Live HTTP Headersl 功能 ， 能 够 了 解 到 
HTTP 头 的 交换 情况 。 下 面 以 图 片 文件 的 交换 情况 为 例 进行 说 明 。 以 下 
为 浏览 器 同 Web 服务 右 发 送 的 HTTP 请求 头 。 





11URL https://addons.mozilla.org/zh-CN/?refox/addon/live-http-headers/ 


GET /images/top/h1.gif HTTP/1.1 
Host: www.hatena.ne.jp 
Keep-Alive: 366 


Connection: keep-alive 
If-Modified-Since: Wed, 19 Dec 2667 15:31:43 GMT 








If-Modified-Since 头 中 记载 了 日 期 。 这 是 浏览 器 取得 该 文件 的 时 间 。 访 


请 求 所 得 到 的 服务 器 〈Apache) 的 应 答 为 ; 


HTTP/1.x 364 Not Modified 
Date: Wed, 27 Feb 2668 66:43:31 GMT 


Server: Apache 





由 此 可 以 看 出 HTTP 的 状态 代码 为 304 (Not Modified) 。Web 服务 器 
Apache 所 进行 的 处 理 为 : 


。 取得 从 客户 端 发 来 的 -Modified-Since 的 更 新 时 间 
。 与 本 地 文件 的 时 间 进 行 比较 
。 判断 客户 端 所 保存 的 缓存 文件 是 否 需 要 进行 更 新 


在 此 并 不 会 返回 文件 ， 而 是 返回 状态 码 304， 即 代表 “即使 不 返回 文件 ， 
只 要 本 地 存在 该 文件 的 缓存 ， 就 能 显示 出 图 片 ”。 据 此 ， 


。 客户 端 可 以 省 略 从 网 上 下 载 图 片 数据 的 步 又 

。 服务 器 可 以 省 略 将 文件 传送 给 客户 端的 步骤 
以 上 就 是 使 用 HTTP 协议 的 缓存 所 达到 的 效果 。 
2.2.2 ”Squid 缓存 服务 器 
既然 客户 端 与 服务 器 有 HTTP 缓存 ， 服 务 器 与 服务 器 间 应 该 也 有 类 似 
HTTP 爱 存 的 方法 存在 ， 不 管 主机 与 主机 间 的 关系 完 竟 如 何 ， 香 两 者 的 
交换 中 有 HTTP 协议 可 用 ， 那 应 该 束 能 实现 内 容 的 缓存 。 
Squid* 是 HTTP、HTTPS、FTP 等 使 用 的 开源 缓存 服务 器 。Squid 可 用 


于 任意 Web 系统 中 ， 使 其 实现 HITP 的 缓存 功能 。 将 Soild 配置 在 使 
用 HTTP 进行 通信 的 两 点 之 间 ， 即 可 实现 缓存 。 








12URE http:/www.squid-cache.org/ 


Squid 通常 被 用 来 缓存 客户 端 从 服务 器 上 下 载 的 文件 。 例 如 大 学 或 企业 
在 LAN 网 关 配 备 了 Squid， 当 办 公 室 的 各 PC 访问 Internet 的 网 站 时 ， 


都 会 经 由 Squid， 即 缓存 服务 器 Squid 发 挥 了 代理 服务 器 的 功能 (图 
2 


WAN ( Internet ) 





图 2.2.1 ”Squid (代理 服务 器 ) 


在 此 ， 当 某 个 客户 端 下 载 了 文件 ，Squid 就 会 缓存 它 。 当 其 他 的 客户 站 
请 求 同 样 的 文件 时 ， 将 从 缓存 中 直接 取出 该 文件 。 由 于 文件 一 旦 被 请 求 
后 ， 之 后 就 会 直接 从 缓存 中 返回 ， 因 此 无 需 每 次 都 请 求 原始 网 页 ， 不 仅 
因为 从 LAN 直接 返回 数据 ， 下 载 文件 的 速度 也 会 变 
得 很 快 。 


使 用 Squid 搭建 反问 代理 


Squid 可 作为 反 向 代理 使 用 。 在 2.1 节 中 介绍 了 使 用 Apache 搭建 反 向 代 
理 的 步骤 ，Squid 也 可 通过 类 似 的 步 又 措 建 起 反 问 代 理 。 从 服务 硕 负 载 
分 流 的 观点 来 看 ， 这 才 是 Squid 主要 的 应 用 形式 。 


Squid 作为 反问 代理 工作 时 ， 通 过 Squid 可 以 将 网 站 的 文件 缓存 到 Squid 
服务 器 上 (图 2.2.2) 。 

















图 2.2.2 Squid〈 反 向 代理 ) 
et 
文 


。 Squid 将 服务 器 取得 的 文件 缓存 到 本 地 


。 当 其 他 客户 端 发 出 请 求 时 ，Squid 将 确认 缓存 的 有 效 性 ， 若 缓存 
有 效 ， 束 将 文件 从 缓存 直接 返回 到 客户 端 


。 如 果 短 时 间 内 有 10,000 个 客户 端 请 求 同 一 文件 ， 则 后 端 服务 器 
( 若 文 件 可 被 缓存 ) 只 对 第 一 次 请 求 做 出 响应 ， 其 余 9,999 个 请 
求 均 由 Squid 的 缓存 返回 


Squid 内 部 的 存储 器 专 为 缓存 设计 ， 速 度 非常 理想 ， 而 且 Squid 可 以 以 
较 小 的 资源 消耗 处 理 大 规模 的 请 求 。 大 多 数 情况 下 ， 与 从 后 端 服务 器 返 
人 
于 4。 


Squid 不 仅仅 只 是 缓存 HTTP 的 内 容 ， 也 可 以 通过 网 络 和 其 他 的 Squid 
服务 器 共享 缓存 。 使 用 该 功能 时 ， 返 回 缓存 的 Squid 服务 器 在 负载 升 高 
的 情况 下 ， 只 需 将 请 求 导向 其 他 的 Squid 处 理 即 可 。 这 与 元 余 的 实现 是 
类 似 的 。 

Squid 缓存 什么 


Squid 是 以 HITP 协议 的 绥 存 功能 为 前 提 的 缓存 服 务 器 。 因 此 绥 存 


HTTP 文件 、CSS 样式 表 、JavaScript 脚本 、 图 片 等 静态 内 容 是 很 明智 的 
0 Squid 绥 存 会 将 过 期 的 缓存 删除 并 蔡 换 为 


动态 的 内 容 要 如 何 处理 呢 ? Squid 拥有 非常 灵活 的 缓存 命令 ， 例 如 针对 
某 个 动态 页 面 设置 其 只 缓存 30 分 钟 也 没 问题 。 


基于 HTT?P 协议 进行 缓存 ， 也 就 是 把 URL 作为 Key 来 缓存 内 容 。 即 每 
个 URL 对 应 一 个 缓存 文件 ， 以 此 存储 缓存 数据 。 


但 问题 是 动态 页 面包 含有 状态 信息 。 例 如 在 Web 应 用 软件 的 页 面 头 中 
很 多 都 会 显示 账户 名 等 。 一 般 该 情况 可 通过 Cookie 会 话 管理 来 实现 。 
最 终 即 使 是 同一 URL， 根 据 用 户 的 不 同 所 输出 的 信息 也 不 同 。 


若 不 小 心 将 所 有 这 样 的 动态 文件 都 进行 了 缓存 ， 如 缓存 了 “欢迎 A 先 
生 ” 这 样 的 信息 ， 那 么 当 B 先生 访问 同一 URL 时 ， 就 会 取 用 A 先生 的 
绥 存 信息 ， 对 B 先生 输出 “欢迎 A 先生 ”这 样 的 信息 。 这 是 缓存 中 会 发 
生 的 代表 性 问题 (图 2.2.3) 。 
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图 2.2.3 不 该 缓存 的 内 容 


动态 页 面 中 ， 每 个 用 户 的 行为 都 会 造成 页 面 内容 的 改变 ， 如 果 要 将 
URL 作为 Key 来 缓存 这 些 文件 的 话 ， 在 HTTP 协议 下 是 很 难 实现 的 。 
首先 ， 在 基于 HTTP 协议 的 缓存 中 ， 通 常 都 是 无 状态 的 内 容 交 换 ， 而 在 
通常 使 用 的 Cookie 的 会 话 管 理 中 ， 无 状态 的 协议 则 会 被 加 入 “状态 ”， 

即 变 成 有 状态 的 通信 。 这 有 悖 于 协议 所 要 求 的 前 提 和 条件， 因此 在 该 协议 
所 支持 的 缓存 机 制 中 就 会 产生 矛盾 。 


希望 使 用 绥 存 来 减轻 负载 ， 但 又 无 法 应 用 HTTP 协议 级 别 的 缓存 ..….….…. 在 
此 情况 下 ， 可 以 在 应 用 软件 的 内 部 ， 例 如 在 数据 库 (Database〉 中， 将 
记录 的 对 象 以 对 象 为 单位 进行 缓存 ， 以 这 种 方式 来 解决 问题 的 话 ， 绥 存 
内 容 的 粒度 要 比 平时 细 。 由 于 粒度 变 细 ， 因 此 将 不 选择 Squid 这 种 以 更 
大 粒度 为 对 象 的 缓存 服务 器 ， 仪 会 选择 适合 该 粒度 的 缓存 服务 器 。 后 文 
中 提 到 的 “memcached” 就 是 一 个 例子 。 


总 之 ， 在 可 以 缓存 整个 页 面 的 情况 下 ， 使 用 Squid 是 比较 明智 的 选择 。 
Squid 的 设 定 示例 
以 下 对 将 Squid 作为 反 向 代理 使 用 时 的 设 定 示例 进行 介绍 


在 将 Squid 作为 反 同 代理 使 用 的 情况 下 ， 可 以 使 用 多 种 拓扑 结构 ， 本 文 
选择 的 结构 是 将 Squid 插入 反 疝 代理 (通过 Apache 检 构建 的 ) 与 AP 服务 
器 中 间 (图 2.2.4) 。 在 到 克 存 有 原始 内 容 的 后 并 AP 服务 嚣 之前， 反问 
代理 将 经 由 Apache Squid 两 处 。 为 了 实现 分 流 与 见 余 ， 需 要 准备 两 
台 Squid， 并 共享 绥 存 。 





通过 mod_proxy_balancer 或 LVS 





192.168.0.151 


图 2.2.4 将 Squid 作为 反 向 代理 使 用 的 例子 

代码 清单 2.2.1 是 将 后 端 服 务 器 返回 的 内 容 缓存 30 分 钟 ， 这 里 的 缓冲 行 
为 不 会 识别 内 容 具 体 是 静态 还 是 动态 。Squid 的 设 定 文件 squid.conf 如 
代码 清单 2.2.1 所 示 。 


代码 清单 2.2.1 squid.conf 的 设 定 示 例 








http_port 86 cSquid 的 端口 为 88 ” 存 有 原始 内 容 的 服务 器 是 后 端 服 务 器 
cache_ peer 192.168.6.166 parent 86 6 no-query originserver «<(192.168.06.1060: 
cache_peer 192.168.6.151 sibling 86 3136 < 子 邻居 的 (sibling)Squid 是 192.168.0@. 

















http_access allow all < 从 所 有 的 服务 器 都 可 访问 (由 于 在 局 域 网 内 ， 因 此 无 需 限制 访问 ) 
cache dir coss /var/squid/coss 8666 block-size=512 max-size=524288 < 绥 存 存储 


refresh _ pattern .36 26% 3666 < 绥 存 3 分钟 ※2 
client_ persistent_connections off «< 


| < 将 Keep-Alive 的 连接 保持 设 为 无 效 ※3 


server persistent connections off «| 





icp_query_timeout 2668 “将 确认 兄弟 缓存 是 否 存在 的 超时 时 间 设 为 2006ms 
































※1 coss 是 Squid 的 缓存 存储 器 的 一 种 ， 是 现在 可 使 用 的 存储 器 中 最 快 的 。 有 具体 请 参考 Squid 手 
册 。 
































※2 Squid 的 缓存 控制 由 refresh_pattern 进行 。 由 于 篇 幅 原 因 ， 这 里 省 略 了 对 refresh_pattern 的 讲 
解 。 在 squid.conf 中 有 详细 说 明 。 














※3 关于 Keep-Alive 的 无 效 化 ， 请 参考 2.1 节 。 


2.2.3 ”使 用 memcached 进行 缓存 


Squid 的 优点 在 于 可 以 使 用 HITP 协议 将 文件 进行 缓存 。HTTP 协议 是 
无 状态 的 可 扩展 协议 ，Squid 也 同样 是 可 扩展 的 ， 而 且 不 受 应 用 软件 的 


结构 等 的 影响 。 


像 之 前 提 到 的 那样 ， 很 多 情况 都 不 适合 用 HTTP 级 别 的 缓存 。 在 Web 
应 用 程序 的 世界 中 ， 可 以 使 用 缓存 服务 器 ， 根 据 应 用 程序 内 部 使 用 的 数 
据 粒 度 来 管理 缓存 。memcached13 就 是 其 中 一 例 。 











13URL http://www.danga.com/memcached/ 


memcached 是 用 C 语言 写 的 应 对 高 速 网 络 分 流 的 绥 存 服务 器 ， 所 用 的 存 
储 器 其 实 是 系统 的 内 存 。 服 务 器 启动 memcached， 通 过 使 用 专用 的 客户 
端 库 与 服务 器 进行 通信 ， 可 以 取得 并 保存 编程 语言 中 规定 的 对 象 。 客 户 
端 库 已 经 针对 不 同 的 语言 ， 发 布 了 与 其 对 应 的 客户 端 库 ， 不 仅 限 于 C 语 
言 、C++、Java、Perl、Ruby、PHP、Python， 现 今 流 行 的 语言 几乎 都 获 
得 了 文 持 。 


memcached 是 由 程序 内 部 使 用 的 。 在 程序 内 部 ， 虽 然 经 常会 将 特定 数据 
缓存 在 文件 中 ， 或 者 缓存 在 本 地 内 存 中 ， 但 有 时 也 会 希望 将 其 缓存 在 网 
络 上 的 服务 器 中 。memcached 就 提供 了 这 类 问题 的 解决 方案 。 

在 此 我 们 不 做 过 于 详尽 的 讲解 ， 以 下 仅 以 简单 的 Perl 脚本 为 例 对 其 使 用 
情况 做 一 个 大 概 的 介绍 。 代 码 清单 2.2.2 是 一 个 简单 的 程序 ， 所 做 的 处 
理 仅 仅 是 取得 数组 对 象 并 将 其 保存 在 缓存 服 务 器 中 。 


代码 清单 2.2.2 的 执行 结果 是 : 








% perl memd.pl 
256 


代码 清单 2.2.2”memcached 的 使 用 示例 


#!/usr/bin/env perl 


Use strict; 
use Warnings 


Use Cache: :Memcached ; 


## 将 192.168.6.1:11211 中 运行 的 memcached 作 为 缓存 服务 器 
my $memcached = Cache: :Memcached->new({ servers => [ '192.168.060.1:11211' | 





my $object = [ 1, 2, 4, 16, 256 |]; 








## 将 对 象 通过 'object1' 保 存 
$memcached->set( ‘object1' => $object ); 











## 将 对 象 从 缓存 中 获取 
my $cached = $memcached->get('object1'); 


printf "%d\n", $cached->[4]; 





0 的 数组 对 象 ， 可 以 确认 确实 已 经 准确 恢复 到 了 以 前 的 


由 于 memcached 是 以 (key,value) 键 值 对 进行 存储 的 ， 不 管 对 象 是 否 
为 依赖 于 语言 的 对 象 ， 都 能 够 被 保存 〈 进 行 序列 化 并 保存 ) 。 只 要 知道 
key， 就 可 以 从 别 的 程序 中 取得 那个 缓存 。 


memcached 〈 根 据 所 装载 的 客户 端 库 ) 存在 抗 障碍 性 。 知 某 特定 的 主机 
运行 的 memcached 宕 机 ， 客 户 端 库 会 感知 其 问题 ， 从 而 避免 将 该 服务 
器 作为 缓存 服务 器 使 用 。 








2.3 ”MYSQL 同步 一 一 发 生 故 障 时 的 快速 恢复 
2.3.1 万 一 数据 库 服务 器 停止 

大 多 数 情况 下 ， 数 据 库 会 存放 默认 用 户 的 信息 等 服务 运行 所 必需 的 数 
据 。 因 此 数据 库 万 一 宕 机 或 发 生 故 障 ， 就 很 可 能 会 产生 能 够 直接 导致 服 
务 停止 的 严重 故障 ， 进 而 引起 更 严重 的 问题 。 


本 节 将 介绍 在 数据 库 服 务 嚣 集 止 工作 的 情况 下 ， 使 数据 库 尽 快 恢复 正 管 
运行 所 采取 的 步 又。 


导致 数据 库 停 止 的 原因 

导致 数据 库 集 止 的 原因 有 很 多 ， 例 如 下 面 几 项 : 
。 数据 库 服务 器 的 进程 mysqld) 异 币 纺 
。 做 盘 空 间 已 满 

。 做 盘 故 障 

。 服务 器 电源 故障 


一 般 在 mysqld 异常 结束 的 情况 下 ， 和 重启 mysqld 就 能 解决 ;在 磁盘 空间 
己 满 的 情况 下 ， 将 不 使 用 的 数据 或 文件 删除 以 腾 出 空间 即 可 。 


另外 在 磁盘 或 电源 等 硬件 发 生 故 障 的 情况 下 ， 修 复 该 故障 往往 要 花 一 些 
时 间 。 因 为 从 蔡 换 故障 硬件 到 配置 服务 器 等 修复 工作 往往 要 花费 一 些 时 
间 ， 知 磁盘 发 生 了 故障 ， 则 其 后 的 数据 恢复 工作 也 需要 时 间 。 

短 时 间 内 恢复 的 办 法 


An 

















假设 有 两 台 完 全 相同 的 数据 库 服务 器 ， 当 一 人 台 因 硬件 故障 无 法 使 用 时 ， 
可 立刻 切换 到 另 一 人 台 。 在 此 需要 准备 两 台 服 务 硕 ， 其 中 人 硬件 及 软件 的 结 


构 和 设置 都 相对 比较 简单 ， 问 题 就 剩 下 “数据 库 的 数据 ”了 。 


这 里 登场 的 是 同步 〈Replication ) 这 种 手段 (图 2.3.1) 。 一 般 同 步 是 
指 ， 将 数据 实时 复制 同步 到 其 他 位 置 的 数据 库 。 这 里 主要 是 通过 LAN 
或 Internet 等 网 络 ， 将 存在 物理 性 差异 的 服务 器 间 的 数据 进行 同步 ， 即 
将 不 同 服务 器 的 数据 库 更 新 至 一 致 。 














图 2.3.1 同步 


总 之 ， 只 要 准备 两 台数 据 库 服务 器 并 同步 其 数据 ， 当 一 全 发 生 故 障 时 残 
能 实现 短 时 间 内 恢复 数据 库 服 务 。 以 下 将 介绍 MySQL 的 同步 功能 的 
特性 与 同步 结构 。 


“为 了 尽 可 能 地 不 让 服务 器 发 生 灾难 性 后 果 ， 可 以 使 用 RAID 提高 单位 服务 器 的 可 靠 度 ， 使 其 
运作 更 加 稳定 。 另 外 ， 使 用 配备 了 Write Cache 的 硬件 RAID， 还 可 提高 写 入 性 能 ， 可 以 说 是 
一 石 二 鸟 。 但 请 留意 ， 根据 产品 的 不 同 ， 有 时 不 配备 BBU (Battery Balin Unit〉 的 话 就 不 能 
使 用 Write Cache 的 功能 。 














2.3.2 MySQL 的 同步 功能 的 特性 和 注意 点 
首先 介绍 MySQL 同步 的 特性 。 本 节 所 使 用 的 MySQL 版 本 为 5.0.45。 
单 主 与 多 从 


主 (Master) 指 的 是 接收 客户 端 发 出 的 修改 与 查询 两 种 类 型 的 语句 的 服 
务 器 ;从 (Slave) 指 的 是 不 接收 客户 端 发 出 的 更 新 请 求 ， 仅 通过 与 
Master 的 联动 来 进行 数据 的 更 新 的 服务 器 。 


MySQL 的 同步 架构 中 ， 提 供 服务 的 有 1 台 Master 与 多 台 Slave ( 单 
pe 


站 


主 、 多 从 





如 果 存 在 多 个 Master， 甚 至 需要 在 这 些 Master 之 间 互 相同 步 数 据 的 

话 ， 这 样 的 多 主 结构 是 不 支持 的 瑟 。 另 外 因为 可 以 存在 多 台 Slave， 所 
以 可 以 将 包含 有 SELECT 内 容 的 查询 语句 分 发 到 多 台 Slave 进行 处 理 以 
提高 性 能 。 详 细 介 绍 请 参考 2.4 节 。 


2 但 是 ， 通 过 分 离 更 新 表 或 记录 的 空间 等 ， 多 主 结构 的 应 用 也 是 没 问题 的 。 















































异步 数据 同步 
MySQL 文 持 “异步 数据 同步 ”。 


所 谓 异 步 ， 是 指 系统 更 新 到 Master 的 内 容 并 不 一 定 会 即时 地 反映 到 
Slave〈 存 在 啊 应 的 时 间 间 隔 ) 。 


虽说 也 存在 支持 复制 同步 的 RDBMS， 但 同步 与 异步 各 有 优 缺 ， 并 不 能 
简单 地 说 束 优 融 劣 。 


被 同步 的 数据 内 容 


MySQL 是 通过 “SQL 语句 ”进行 同步 数据 的 。 例 如 有 一 条 UPDATE 语 
句 ， 那 么 无 论 访 语句 更 新 的 内 容 是 1 项 还 是 100 万 项 ， 由 Master 传人 至 
Slave 的 也 仪 有 一 条 UPDATE 语句 。 


该 方式 使 Master 与 Slave 之 则 只 需 交 换 较 少 的 数据 就 能 完成 同步 。 但 寿 
在 执行 时 同步 了 无 效 的 查询 语句 〈 即 不 能 返回 正确 结果 的 查询 ) ， 则 
Master 与 备份 的 Slave 数据 就 可 能 会 存在 差异 。 


例如 在 修改 类 的 语句 中 ， 若 LIMIT 语句 没有 使 用 ORDER BY，Mtaster 
数据 库 中 LIMIT 语句 所 选择 的 行 与 Slave 数据 库 中 所 选择 的 可 能 会 存在 
差异 。 因 此 ，Master 数据 库 与 Slave 数据 库 中 就 会 有 不 同 的 行 被 更 新 。 
该 问题 有 一 点 非 芝 致命， 那 就 是 不 会 察觉 到 数据 已 经 出 现 了 和 差异。 如 果 





























幸运 的 话 ， 在 同步 时 会 因 违 反 UNIQUE 等 的 规则 而 出 现 错误 并 停止， 
这 时 就 可 能 会 觉察 到 ， 和 若是 谁 都 没有 穴 觉 到 异常 ， 则 很 有 可 能 存在 数据 
不 同步 的 危险 。 

SQL 的 同步 语句 还 存在 一 些 其 他 的 潜在 问题 ， 这 些 问 题 暂 时 都 没有 公认 
的 解决 办 法 ， 因 此 最 好 不 要 提交 会 出 错 的 查询 。 


在 MySQL 5.1.5 以 后 的 版 本 中 ， 由 于 可 以 使 用 “以 行为 单位 的 同步 功 
能 ”， 所 以 该 问题 得 以 解决 。 在 以 行为 单位 的 同步 中 ，Master 数据 库 中 
被 实际 更 新 的 行 数据 会 被 同步 ， 因 此 无 需 使 用 前 述 的 LIMIT 语句 ， 也 
避免 了 在 执行 时 无 从 得 知 结果 的 问题 。 

在 MySQL 5.1.8 中 还 增加 了 “混合 模式 ”。 该 模式 一 般 以 SQL 语句 为 单 
位 进行 同步 ， 根 据 情 况 的 不 同 还 可 以 以 行为 单位 来 执行 同步 操作 。 
2.3.3 ”同步 的 结构 

接 下 来 从 以 下 几 点 来 讲解 同步 的 结构 。 

。 LO 线程 与 SQL 线程 

。 二 进 制 日 志 与 中 继 日 志 

。 位 置信 息 

Slave 的 IO 线程 与 SQL 线程 


为 了 实现 同步 ，Slave 中 设置 了 两 个 线程 同时 工作 ， 即 “TO 线 
程 ” 与 “SQL 线程 ”。 


IO 线程 是 将 从 Master 得 到 的 数据 (更 新 日 志 )〉 放 到 被 称 为 中 继 日 志 的 
文件 中 进行 记录 的 。 男 一 方面 ，SQL 线程 则 是 将 中 继 日 志 读 取 并 执行 查 


询 。 


为 何 要 分 为 两 个 线程 呢 ? 这 古 为 了 降低 同步 的 延迟 。 如 宁 将 IO 与 SQL 
线程 的 工作 只 分 配给 一 个 线程 ， 且 SQL 的 处 理 又 很 花 时 间 ， 那 么 在 处 
理 SQL 语句 期 间 是 无 法 从 Master 复制 数据 的 。 为 了 避免 这 样 的 事态 ， 
应 该 将 其 工作 分 担 给 两 个 线程 。 

















二 进 制 日 志 与 中 继 日 志 


Master 中 会 生成 “< 二进制 日 志 ”(The Binary Log) ，Slave 中 会 生成 “中 
继 日 志 ”(Relay Log) 。 


二 进 制 日 志 中 只 记录 修改 数据 的 语句 ， 而 不 记录 查询 类 (不 对 数据 库 进 
行 改动 ) 的 语句 。 另 外 ， 二 进 制 日 志 除 了 被 用 于 同步 之 外 ， 还 可 被 用 于 
保存 备份 中 更 新 的 内 容 。 但 由 于 二 进 制 日 志 不 是 文本 格式 ， 无 法 直接 打 
开 查 看 ， 需 要 在 命令 行 下 使 用 mysqlbinlog 将 其 转换 为 文本 格式 。 

中 继 日 志 是 指 ，Slave 的 IO 线程 在 从 Master 获取 更 新 日 志 (记录 了 修 
改 类 语句 所 请 求 的 数据 ) 后， 将 其 保存 在 Slave 上 。 因 此 其 内 容 与 二 进 
制 日 志 相 同 。 与 二 进 制 日 志 不 同 的 是 ， 当 不 需要 时 ， 中 继 日 志 会 被 SQL 
线程 自动 删除 ， 不 需要 手动 删除 。 

位 置信 息 

因为 Slave 会 记 住 复 制 同步 了 多 少 Master 的 数据 ， 因 此 即便 Slave 的 
进程 终止 后 隔 段 时 间 再 启动 ， 也 可 从 终止 时 的 断 点 开始 继续 同步 
数据 。 

在 此 我 们 将 Master 所 在 的 主机 名 、 日 志文 件 名 、 日 志文 件 中 处 理 的 信 
恩 称 为 “位 置信 息 ”"。 位 置信 息 被 保存 在 文本 格式 的 文 

件 “master.info” 中 ， 该 文件 可 以 使 用 SQL 语句 SHOW SLAVE STATUS 进行 
确认 。 


2.3.4 搭建 同步 结构 

接 下 来 对 同步 结构 的 搭建 流程 逐步 进行 说 明 。 

同步 条 件 

使 用 MySQL 搭建 同步 结构 需要 满足 以 下 前 提 条 件 : 
。 Master 可 拥有 多 个 Slave 


在 一 个 Master 下 面 能 够 配备 多 个 Slave 
































。 Slave 只 能 挂靠 一 个 Master 


Slave 无 法 从 多 个 Master 中 同步 数据 ， 但 Slave 在 某 些 状况 下 也 可 
以 成 为 其 他 服务 器 (Slave) 的 Master 


。 所 有 的 Master 及 Slave 中 必须 指定 不 同 的 server-id 


ee 征 同步 结构 中 识别 不 同 服务 器 的 标志 ， 需 要 指定 为 不 同 的 


Master 需要 和 输出 二 进 制 日 志 


由 于 要 将 修改 类 的 请 求 传 送 到 Slave， 因 此 需要 保证 开启 Master 的 
二 进 制 日 志 


my.cnf 


各 需要 搭建 同步 结构 ， 可 将 MySQL 的 设 定 文件 “my.cnf” 参 照 代 码 清单 
2.3.1 进行 必要 的 设 定 。 


代码 清单 2.3.1 my.cnf 


[mysqld] 

server-id = 1 © 
log-bin mysql-bin <@ 
log-bin-index mysql-bin <*@ 


relay-log relay-bin <@ 
relay-log-index = relay-bin «© 
log-slave-updates «©@ 





需要 将 每 个 数据 库 服务 器 的 server-id 设置 为 不 同 的 整数 值 ， 可 指定 的 范 
围 为 1 一 4294967295。 由 于 代码 清单 2.3.1 的 @ 中 已 经 将 server-id 指 
定 为 了 1， 知 这 是 Master 的 my.cnf， 则 Slave 的 server-id 就 需要 指定 为 
除 1 以 外 的 其 他 值 ( 例 如 2) 。 


代码 清单 2.3.1 的 @ log-bin 与 人 log-bin-index 是 指 开 启 二 进 制 日 志 ， 
并 指定 日 志 的 文件 名 及 索引 的 文件 名 。@ relay-log 与 @ relay-log-index 
也 是 同样 ， 指 的 是 开启 中 继 日 志 并 指定 中 继 日 志 的 文件 名 。 


最 后 的 @ log-slave-updates 设 定 了 Slave 的 二 进 制 日 志 输 出 。 若 无 该 设 
定 ， 则 Slave 不 会 输出 二 进 制 日 志 。 但 由 于 MySQL 的 同步 操作 中 
Master 必须 输出 二 进 制 日 志 ， 为 了 使 Slave 升格 为 Master 的 操作 顺利 进 
行 ， 事 先 对 Slave 设 定好 二 进 制 日 志 输 出 是 较 好 的 选择 。 


接 下 来 将 使 用 代码 清单 2.3.1 的 my.cnf， 局 动 搭 建 好 的 Master 服务 器 的 
mysdld。 


建立 同步 专用 的 用 户 


为 了 连接 Master 与 Slave， 需 要 在 Master 上 建立 用 户 ， 并 赋予 其 最 基本 
的 REPLICATION SLAVE 权限 。 该 用 户 为 同步 专用 ， 不 需要 给 予 该 用 
户 其 他 的 权限 。 


例如 可 以 将 同步 专用 的 用 户 名 设置 为 “repl”， 将 该 用 户 的 密码 设 

为 “qa55wd”， 若 在 192.168.31.0/24 的 网 络 上 已 经 配置 了 Slave， 则 可 参 
考 以 下 信息 来 配置 Master。 在 本 命令 中 ， 为 用 户 repl 赋予 了 
REPLICATION SLAVE 权限 。 


mysql> GRANT REPLICATION SLAVE ON *.* TO rep10'192.168.31.6/255.255.255.6， 


同步 开始 时 所 必需 的 数据 


在 增加 新 的 Slave 时 ， 或 者 在 为 遭遇 故障 的 Slave 引入 备份 设备 时 ， 
Slave 的 初始 数据 要 怎么 准备 昵 ? 这 里 不 仅 需 要 进行 Master 的 完全 转 
储 ， 还 需要 明确 位 置信 息 ， 即 需要 知晓 Master 的 二 进 制 日 志 转 储 是 何 
， 因此 ， 仅 通过 mysqldump 工具 获取 数据 的 转 储 文件 并 不 能 
营建 出 Slave。 


简单 起 见 ， 这 里 将 转 储 + 位 置信 息 称 为 “快照 ”(Snapshot)。 


在 抓 取 快照 时 ， 知 能 停止 Master 的 mysqld， 则 先 将 mysqld 停止 ， 然 后 
再 使 用 tar 等 打包 复制 -包含 有 MyISAM 和 InnoDB 数据 文件 的 
MySQL 数据 目录 ， 或 者 使 用 LVM (Logical Volume Manager) 的 快照 
功能 ， 减 少 花费 的 时 间 。 使 用 tar 的 --exclude 选 项 可 以 排除 不 必要 的 
文件 (二进制 文件 等 ， 从 而 缩短 复制 同步 的 时 间 。 























6 在 GNU tar 中 ， 使 用 -z 选项 可 同时 进行 gzip 压缩 。 但 根据 数据 容量 的 大 小 可 能 要 花费 一 些 
时 间 ， 知 希望 减少 时 间 ， 则 建议 不 进行 压缩 而 仅 使 用 tar 进行 复制 同步 。 



































在 此 请 注意 不 要 在 记 “ 记 录 位 置信 息 ”。 


停止 mysqld 时 ， 系 统 会 记录 下 Master 的 二 进 制 日 志文 件 的 文件 名 ， 并 
在 启动 后 切换 到 下 一 个 数字 。 即 文件 名 为 “mysql-bin.000002” 的 日 志文 件 
在 启动 后 的 位 置信 息 将 变 为 “mysql-bin.000003 的 开头 247。 


17 请 注意 二 进 外 











tt 














上 日志 的 头 部 的 位 置 是 “4”， 而 不 是 “0”。 














了 
一 一 








在 不 能 停止 mysqld 的 情况 下 ， 只 需 先 暂停 使 用 修改 类 的 语句 〈 这 时 不 
让 数据 库 修 改 数据 ) ， 之 后 再 使 用 完全 转 储 ， 并 记录 好 SHOW MASTER 
STATUS 的 结果 便 可 以 了 。 


另外 ， 建 议 利用 磁盘 空间 尽 可 能 保存 更 多 的 快照 。 因 为 只 要 存在 快照 和 
抓 取 时 间 之 后 的 的 二 进 制 日 忘 志 ， 即 便 其 再 过 时 ， 也 可 以 以 此 为 
基础 制作 Slave， 这 对 今后 增设 Slave 及 恢复 故障 设备 都 会 起 到 很 大 的 作 
用 。 


2.3.5 ”启动 同步 


下 面 基于 快照 制作 Slave。 若 Slave 在 mysqld 正在 运行 时 停止 的 话 ， 可 
以 采取 前 文中 说 明 过 的 步骤 将 快照 展开 到 MySQL 的 数据 目录 上 。 人 至 此 
Master 和 Slave 就 存放 好 相同 的 数据 了 。 


这 里 我 们 不 立刻 启动 Slave 的 mysqld， 先 来 比较 一 下 Master 和 Slave 的 
my.cnf 文件 的 差异 。 














Master 和 Slave 的 my.cnf 文件 的 差异 


确认 的 重点 是 “server-id”，Master 和 Slave 之 间 只 有 server-id 的 值 是 必 

须 不 同 的 。 若 使 用 了 InnoDB， 则 需要 将 Master 及 Slave 的 

a a file_path 栏目 中 的 数据 文件 的 名 称 、 数 量 、 大 小 设置 为 同 
*] 娄 1 


总 而 言 之 ， 只 要 确认 Master 和 Slave 的 my.cnf 中 只 有 server-id 的 值 不 
一 样 就 可 以 了 。 


Slave 开始 运行 & 确认 


确认 没 问题 的 话 就 启动 Slave 的 mysqld， 但 因为 仅仅 启动 的 话 还 不 能 运 
行 Slave， 所 以 需要 在 Slave 中 执行 以 下 代码 : 





CHANGE MASTER TO 
MASTER_HOST 
MASTER_USER 
MASTER_PASSWORD 
MASTER_LOG FILE 
MASTER_LOG_POS 


@ 指 示 与 Master 的 关系 
"my5-1"', 

"repl', 

"qa55wd"'， 
"mysql-bin.606063  ， 
4; 


个 





SLAVE START; < @ 开 始 复制 





在 @ CHANGE MASTER TO 

的 “MASTER_LOG _FILE” 与 “MASTER_LOG _POS” 中 ， 指 定 快照 抓 取 时 
的 位 置信 息 。 

如 果 想 要 确认 复制 同步 是 否 已 经 开始 进行 ， 可 在 Slave 中 执行 SHOW 
SLAVE STATUS， 若 结果 中 

的 “Slave_IO_Running” 与 “Slave_SQL_Running” 都 为 Yes， 则 表示 没 问 题 
了 。 要 是 发 生 错 误 的 话 ， 可 通过 “Last_Error” 或 MySQL 错误 日 志文 件 来 
调查 产生 错误 的 原因 ， 将 这 些 问 题解 决 后 ， 再 执行 SLAVE START 就 行 
证 


2.3.6 ”确认 同步 的 状态 


最 后 来 介绍 确认 同步 的 状态 的 方法 。 厦 同步 不 能 正常 运行 ， 可 通过 监控 
同步 的 状态 来 得 找 具 体 原 因 。 


Master 的 状态 确认 
首先 来 介绍 确认 Master 的 状态 的 SQL 语句 。 


SHOW MASTER STATUS 














SHOW MASTER STATUS 指令 可 以 被 用 来 调查 Master 二 进 制 日 志 的 
状态 。 执 行 结 果 如 图 2.3.2 所 示 。 项 目 内 容 见 表 2.3.1。 





mysql> SHOW MASTER STATUSANG 
米 米 米 米 米 米 炒米 米 米 炒米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 1. row 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 
File: mysql-bin.666666 
Position: 98 
Binlog_Do_DB: 
Binlog Ignore_DB: 





图 2.3.2 SHOW MASTER STATUS 的 执行 示例 


表 2.3.1 SHOW MASTER STATUS 列 出 的 各 项 目 


E 在 使 用 的 二 进 制 日 志 的 文件 名 

E 在 使 用 的 二 进 制 日 志 的 位 置信 息 
日 志 的 数据 库 名 称 
设 定 不 记录 二 进 制 日 志 的 数据 库 名 称 


SHOW MASTER LOGS 


SHOW MASTER LOGS 会 显示 出 目前 Master 中 存在 的 所 有 二 进 制 日 志 
的 文件 名 。 执 行 结果 如 图 2.3.3 所 示 。 





























mysql> SHOWN MASTER 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
Log_name 


mysql-bin.666661 
mysql-bin.666662 


mysql-bin.666663 
mysql-bin.666664 
mysql-bin.666665 
mysql-bin.666666 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 





图 2.3.3 SHOW MASTER LOGS 的 执行 示例 


由 于 二 进 制 日 志 是 渐渐 增加 的 ， 需 要 定期 清理 。 不 过 胡乱 删除 的 话 
会 导致 同步 中 止 ， 因 此 可 以 通过 后 面 叙 述 的 SHOW SLAVE STATUS 


对 处 理 完 毕 的 二 进 制 日 志文 件 名 确认 之 后 再 删除 。 在 有 多 个 Slave 
运作 的 情况 下 ， 为 了 安全 地 删除 ， 可 以 待 所 有 Slave 的 二 进 制 日 志 
文件 处 理 完毕 后 再 开始 进行 。 男 外 ， 也 不 能 直接 在 文件 系统 上 删除 
文件 ， 而 要 在 Master 上 执行 PURGE MASTERLOGS 语 句 来 进行 删除 。 
例如 : 


PURGE MASTER LOGS TO "mysql-bin.666663 ' ; 


执行 以 上 语句 会 留 下 mysql-bin.000003， 而 删除 更 早 的 mysqL- 
bin.000002 及 000001 日 志文 件 。 使 用 RESET MASTER 同 样 也 可 以 进 
行 删 除 操作 ， 但 执行 该 语句 会 删除 Master 所 有 的 三 进 制 日 志 ，i 
而 造成 同步 终止 。 在 同步 正在 进行 的 情况 下 ， 个 能 E 使 用 RESET 
MASTER， 而 要 用 PURGE MASTER LOGS 来 删除 日 志 。 


Slave 的 状态 确认 
以 下 介绍 确认 Slave 状态 的 SQL 语句 。 








执行 SHOW SLAVE STATUS 就 可 以 确认 Slave 的 各 种 信息 ， 如 图 
2.3.4 所 示 。 各 条 目的 含义 如 表 2.3.2 所 示 。SHOW SLAVESTATUS 输 
出 的 内 容 根据 MySQL 版 本 的 不 同 可 能 存在 差异 ， 最 新 信息 请 参考 
MySQL AB 的 参考 手册 。 











mysql> SHOW SLAVE STATUS\G 


米 米 米 米 炒米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 米 米 米 米 炒米 米 了 。 FOW 洲 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 


Slave_I0 State: Waiting for master to send event 
Master_ Host: my5-1 
Master User: repl 
Master_ Port: 3366 
Connect Retry: 66 
Master_ Log File: mysql-bin.666666 
Read Master Log Pos: 98 
Relay_ Log File: relay-bin.6806116 
Relay_Log _ Pos: 235 
Relay Master Log File: mysql-bin.666666 
Slave_I0O Running: Yes 
Slave_ SQL Running: Yes 
Replicate Do_DB: 


Replicate Ignore_DB: 
Replicate Do Table: 
Replicate Ignore Table: 
Replicate Wild Do Table: 
Replicate Wild Ignore Table: 
Last _ Errno: 6 
Last_ Error: 
Skip Counter: 6 
Exec Master Log Pos: 98 
Relay_Log Space: 235 
Until Condition: None 
Until Log File: 
Until Log Pos: 0 
Master SSL Allowed: No 
Master _ SSL CA File: 
Master SSL _CA Path: 
Master_SSL Cert: 
Master_SSL _ Cipher: 
Master_SSL Key: 
Seconds Behind Master: 6 





图 2.3.4 SHOW SLAVE STATUS 的 执行 示例 


表 2.3.2 SHOW SLAVE STATUS 列 出 的 条 日 (节选) 


和 尝试 连接 Slave 的 等 待 



































Slave 的 VO 线程 正在 读 取 的 Master 的 二 进 制 文 件 名 
的 二 进 制 日 志 中 ，1/O 线 程 已 经 读 取 的 位 





























E 在 读 取 和 执行 的 中 继 日 志文 件 的 名 称 











人 的 中 继 日 志 中 ，SQL 线 程 已 读 取 和 执行 的 
立 置 
记录 了 SQL 线程 最 后 执行 的 查询 的 Master 二 进 制 日 志 的 
文件 名 
Slave_ IO_Running IO 线程 是 否 被 启动 























Slave_SQL_Running SQL 线程 是 否 被 启动 
Replicae_Do_DB | 设 定 进行 同步 的 妆 据 库 名 和 
TREE Ia DB | 设 定 不 进行 同步 的 到 库 名 宙 


最 后 执行 的 查询 所 返回 的 错误 编号 。“0” 代 表 没 有 错误 


ee 最 后 执行 的 查询 所 返回 的 错误 消息 等 。 若 Last_Error 值 
是 空 值 ， 则 代表 没有 错误 
. 最 后 使 用 SQL_SLAVE_SKIP_ COUNTER 时 的 值 。 若 没 
Skip_Counter 有 使 用 就 设 为 <0” 










































































SQL 线 程 最 后 执行 的 查询 在 Master 的 二 进 制 日 志 中 的 位 
置 


Relay_ Log Space 所 有 原 有 的 中 继 日 志 结合 起 来 的 总 大 小 。 单 位 是 
测量 SQL 线程 和 IO 线程 之 间 的 时 间 差 距 ， 单 位 以 秒 
Seconds_Behind_Master | 计 。 若 Master 和 Slave 之 间 的 网 络 连 接 较 快 ， 则 能 够 十 
分 近似 地 表示 Slave 比 Master 落 后 多 少 
具体 输出 的 内 容 有 很 多 ， 下 面 列 举 几 个 需要 注意 的 地 方 。 
首先 来 说 日 志文 件 名 与 位 置信 息 ，Master Log_File 与 


Read_Master_ Log_Pos 相对 应 ，Relay_Log_File 与 Relay_Log_Pos 
相对 应 ，Relay_Master Log_File 与 Exec_Master Log_Pos 相对 应 。 











Exec_ Master Log_Pos 















































若 IO 进程 正常 ，Slave_IO_Running 就 会 显示 为 “Yes”; 若 SQL 进 
程 正常 ，Slave_SQL_Running 就 会 显示 为 “Yes”。 奉 其 中 任何 一 方 
不 是 “Yes”"， 则 同步 就 会 终止 ， 因 此 在 监控 Slave 运行 情况 的 时 候 需 
要 密切 关注 上 述 这 些 条 目 。 





Last_Error 中 显示 了 错误 信息 ， 该 错误 信息 会 被 记录 在 错误 日 志文 
件 中 。 正 常情 况 下 Last_Errno 会 显示 为 “0”， 知 出 现 错误 ， 
Last_Errnor 就 会 显示 错误 信息 。 在 监控 Slave 的 状态 时 ， 需 要 同时 
确认 Last_Errno 与 Last_Error 两 者 的 情况 。 


2.4 MySQL 的 Slave+ 中 部 负载 均衡 器 的 天 活 应 
用 示例 

2.4.1 MySQL 的 Slave 的 运用 方法 

MySQL 的 同步 结构 中 的 Slave 对 实时 备份 来 说 是 一 个 非常 有 用 的 功 


能 ， 但 配置 稍 显 复 杂 。 本 节 中 将 会 逐步 探讨 有 关 MySQL Slave 的 运用 
方法 。 





Slave 的 运用 策略 

首先 ， 实 际 操作 中 最 党 使 用 的 是 根据 服务 器 属性 的 不 同 来 规定 其 行为 ， 
以 此 来 实现 负载 分 发 ， 即 将 修改 类 语句 (INSERT、DELETE、 
UPDATE ) 在 Master 中 进行 ， 将 查询 类 语句 (SELECT) 在 Slave 中 进 
行 。 

为 了 进一步 横 回 扩展， 还 可 放置 多 台 Slave。MySQL 的 同步 虽然 仅 允 许 
一 台 Master 的 存在 ， 但 设置 多 台 Slave 是 完全 可 以 的 。 在 此 建立 多 台 
Slave， 以 将 查询 类 语句 分 发 到 这 些 Slave 上 。 

分 发 到 多 台 Slave 上 


台 Slave 的 问题 在 于 如 何 分 发 这 些 请 求 。 在 这 里 介绍 两 种 方法 以 供 各 


立 参考 。 
@ 在 应 用 程序 端 进行 分 发 


第 一 种 方式 就 是 在 Web 应 用 程序 端 进 行 分 发 处 理 。 只 要 做 出 以 下 
处 理 ， 即 可 实现 应 用 程序 端的 分 发 。 


确定 好 所 有 Slave 的 主机 名 
。 实现 分 友 的 逻辑 ， 即 如 果 决 定 分 发 到 哪 台 Slave 服务 器 上 


。 实 施 Slave 的 状态 监控 ， 若 宕 机 则 不 要 分 发 到 该 Slave 上 





近期 使 用 O/R 映射 访问 数据 库 服务 器 的 情况 有 很 多 ， 因 此 可 以 选择 
在 O/R 映射 层 配备 此 类 分 发 处 理 。 


男 在 负载 均衡 器 上 进行 分 发 

第 二 种 方法 是 利用 负载 均衡 器 。 提 到 负载 均衡 器 ， 大 家 往往 会 想到 

古 在 外 部 客户 端 与 Web 服务 器 之 间 《〈 即 传送 服务 器 文件 的 通道 ) 

所 放置 的 设备 ， 而 既然 负载 均衡 器 是 基于 Linux 部 车 的 ， 所 以 不 妨 

将 其 部 署 到 服务 占 集 群 内 部 ， 这 也 就 是 第 二 种 方案 。 

与 在 应 用 程序 端 进行 分 发 相 比 ， 在 负载 均衡 器 上 分 发 有 以 下 优点 : 
。 应 用 程序 端 无 需 考 碟 Slave 的 台数 


由 于 增 减 Slave 的 台数 可 利用 负载 均衡 器 进行 分 及 ， 因 此 就 不 
需要 特意 使 用 AP 服务 器 来 分 别管 理 所 有 的 Slave 


o 应 用 程序 并 无 需 考虑 Slave 的 工作 状态 

由 于 负载 均衡 会 进行 恢复 工作 (通过 监控 分 发 集群 的 状态 ， 万 
一 发 生 情 况 就 用 备用 的 Slave 项 符 遭 遇 故 障 的 设备 ) ， 因 此 并 
不 需要 在 应 用 程序 端 进行 监控 或 分 发 处 理 

可 以 进行 更 加 平衡 的 分 发 

由 于 使 用 了 “分 发 到 连接 数 最 小 的 Slave 上 ”的 策略 ， 因 此 可 实 
现 更 均衡 地 分 配 负 载 。 在 Web 应 用 程序 端 进行 分 发 时 ， 若 连 

接 数 超出 了 进程 或 AP 服务 器 的 负载 ， 就 很 难 实现 均 衡 地 分 发 
通过 以 该 方式 部 普 ， 不 仅 可 以 使 应 用 程序 问 的 处 理 减 少 ， 还 可 以 使 
应 用 程序 端 不 用 得 知 Slave 集群 的 状态 。 例 如 ， 在 需要 增加 Slave 

的 情况 下 ， 应 用 程序 端 不 用 做 出 任何 准备 ， 只 要 使 用 负载 均衡 器 ， 

通过 下 述 的 作业 过 程 就 能 完成 所 需 的 处 理 。 

办 此， 下 文 将 对 内 部 负载 均衡 器 进行 深入 讲解 。 


2.4.2 ”通过 负载 均衡 器 将 请 求 分 发 到 多 台 Slave 的 方法 











oO 


以 下 将 介绍 通过 内 部 负载 均衡 器 将 请 求 分 发 到 多 台 Slave 的 方法 。 
概况 图 
图 2.4.1 是 相关 的 结构 图 。 

。 AP : 发 送 请 求 的 Web 应 用 程序 

。 db100: MySQL 的 Master 数据 库 服务 器 

。db101、db102: MySQL 的 Slave 数据 库 服务 器 

。 db100-s : Slave 集群 所 捆绑 的 虚拟 Slave 名 


11、12: 内 部 负载 均衡 器 。 通 过 11、12 构成 VRRP 的 
Active/Backup 结构 ，VIP 为 lls(192.168.31.230) 


人 
= 
了 
Create 本 _ sy 
Rs 192.168.31.119 { db100-s) 









图 2.4.1 通过 负载 均衡 器 将 请 求 分 发 到 多 台 Slave 
在 MySQL 的 分 发 架构 中 ， 存 在 一 台 Master (db100) 与 两 台 





Slave 〈db101、db102) 。 处 理 客 户 端 请 求 的 AP 将 修改 类 的 请 求 
(Create、Updata、Delete) 分 配 到 Master， 将 查询 类 的 请 求 〈 不 破坏 数 

据 的 语句 ) 分 配 到 Slave。 而 且 并 不 直接 连接 到 Slave， 而 是 经 由 内 部 负 

载 均衡 器 (ls) 进行 访问 。 内 部 负载 均衡 器 lls 能 监控 Slave 集群 是 否 

和 常 工作 ， 并 恰当 地 将 请 求 分 发 到 Slave 上 。 


本 节 使 用 的 MySQL 的 版 本 是 5.0.45，keepalived 的 版 本 是 1.1.15。 
内 部 负载 均衡 器 的 配置 


ls (111 与 12) 的 keepalived.conf 的 设 定 如 代码 清单 2.4.1 所 示 。 








代码 清单 2.4.1 ”lls 的 keepalived.conf 的 设 定 





### basic section 
vrrp_instance VI { 
state BACKUP 
interface eth6 
garp_master delay 5 
virtual router id 236 <*@ 
priority 166 
nopreempt 
advert int 1 
authentication { 
auth_type PASS 
auth_pass himitsu 
} 
virtual ipaddress { < 
192.168.31.236/24 dev eth6 | <@ 
192.168.31.119/24 dev eth6 | 
| 


} < 


} 

### MySQL slave section 

virtual server group MYSQL166 { 
192.168.31.119 3366 

} 

virtual server group MYSQL166 { 
delay_loop 3 


lvs_sched rr 
lvs_method DR <@ 
protocol TCP 


real server 192.168.31.111 3366 { 
weight 1 


inhibit on failure 
TCP_CHECK { 
connect port 3366 
connect timeout 3 
} 
} 
real server 192.168.31.112 3366 { 
weight 1 
inhibit on failure 
TCP_CHECK { 
connect port 3366 
connect timeout 3 





首先 请 看 “basic” 代 码 块 。 在 此 代码 块 中 ， 设 定 了 lls 即 负 载 均衡 器 的 基 
本 行为 。 需 要 留意 的 是 代码 清单 2.4.1 中 @ 处 的 virtual_router id 所 指 
定 的 VRID (Virtual Router ID， 路 由 器 集群 识别 标示 符 ) 。 


在 该 VRRP 中 ， 虚 拟 路 由 器 采用 与 VRID 相同 节点 〈 路 由 ) 的 集群 结构 

(在 VRRR 协议 中 ，VRID 是 VRRP 路 由 的 唯一 标识 ) 。 因 此 在 同一 网 
络 的 网 段 中 ， 每 个 虚拟 路 由 器 集群 的 VRID 都 必须 不 同 。 若 外 部 负载 均 
衡器 等 已 经 存在 虚拟 路 由 器 集群 的 话 ， 请 确保 将 virtual_router id 设 定 
为 不 同 的 值 。 可 以 通过 使 用 tcpdump 查看 VRRP 报 文 ， 像 图 2.4.2 那样 
查看 实际 正在 使 用 的 VRID。 


lls# tcpdump -n proto \\vrrp 


66:59:42.164341 IP 192.168.31.231 > 224.6.6.18: VRRPvV2, Advertisement, vrid 





图 2.4.2 使 用 tcpdump 查看 VRRP 报 文 


在 basic 代码 块 中 还 有 一 个 重点 ， 即 代码 清单 2.4.1 中 人 处 的 

virtual_ipaddress。 这 里 同时 设 定 了 内 部 负载 均衡 器 自 映 的 虚拟 路 由 器 地 

址 (192.168.31.230)〉 和 虚拟 Slave (db100-s) 所 用 的 卫 地 址 
(192.168.31.119) 。 


接 下 来 是 “MySQL slave” 代 人 码 块 ， 这 里 并 没有 什么 需要 特别 注意 的 地 
方 。virtual_server_group 中 指定 了 虚拟 Slave 所 使 用 的 IP 地 址 与 端口 


号 ， 下 面 的 virtual_server 中 指定 了 真实 服务 器 〈Slave) 。 本 例 中 是 通 
过 使 用 TCP_CHECK 查看 TCP_CHECK 的 3306 端口 是 否 启动 来 对 真实 
服务 器 进行 状态 监控 的 ， 若 需要 更 加 严密 的 监控 ， 可 以 写 个 脚本 来 确认 
实际 发 出 的 请 求 是 否 得 到 了 回应 ， 有 具体 可 以 在 脚本 中 通过 
MISC_CHECK 等 方式 进行 。 











MySQL Slave 的 设 定 
从 内 部 负载 均衡 器 的 角度 来 看 ， 必 须 对 真实 服务 器 ， 即 MySQL Slave 
服务 器 进行 配置 。 


虽然 MySQL 的 服务 并 不 需要 进行 特别 的 设置 ， 但 如 代码 清单 2.4.1 中 
的 全 所 示 ， 因 为 设 定 了 “DSR” 的 分 发 人 总 ， 所 以 必须 确保 虚拟 Slave 的 了 
地 址 能 够 正常 收 到 报 文 。 有 具体 来 说 ， 需 要 对 Slave (db101、db102) 执 
行 以 下 命令 : 


18 在 DRS 结构 中 ， 将 lvs_method 指定 为 “DR”， 而 不 是 “DSR”( 请 参考 1.3 节 ) 。 


iptables -t nat -A PREROUTING -d 192.168.31.119 -j REDIRECT 


体验 将 请 求 分 发 到 多 台 Slave 的 负载 均衡 


以 上 设 定 完毕 后 ， 即 可 体验 负载 均衡 了 。 这 里 为 了 直观 地 进行 确认 ， 将 
分 发 对 象 Slave 的 server_idl 结合 其 主机 名 db101 与 db102 命名 为 101 
和 102。 在 访问 该 server_id 时 ， 将 会 把 请 求 发 送 到 虚拟 Slave (db100- 
s) 上 ， 下 面 我 们 来 确认 是 否 确实 进行 了 分 发 处 理 〈 图 2.4.3) 。 


3 通过 my.cnf 指定 的 MySQL 的 相关 参数 。 在 进行 复制 同步 等 操作 的 时 候 ， 通 常 被 用 于 识别 服 
务 器 。 有 具体 在 2.3 节 中 有 说 明 。 






























































wW161$ check lb slave() { 

> echo 'SHOW VARIABLES LIKE "server_id"' | mysql -s -hdb166-s 
> } 

wW161$ check lb slave 

server_id 161 

wW161$ check lb slave 

server_id 162 

wW161$ check lb slave 

server_id 161 


[CL 
图 2.4.3 ”体验 将 请 求 分 发 到 多 台 Slave 的 负载 均衡 


虽然 是 向 同一 台 虚 拟 服务 器 〈db100-s) 发 送 请 求 ， 但 由 于 server_id 的 
值 不 同 ， 因 此 也 可 确认 负载 均衡 是 否 完成 了 分 发 的 工作 。 


2.4.3 ”内 部 负载 均衡 器 的 注意 点 ...... 基 于 DSR 的 分 发 方法 


相对 于 外 部 负载 均衡 器 ， 内 部 负载 均衡 器 也 有 需要 特别 注意 的 要 点 ， 即 
分 发 策略 为 DSR (vs_method DR) ， 而 不 是 NAT (lvs_method 
NAT) 。 


在 使 用 NAT 集 略 的 情况 下 ， 从 客户 并 的 角度 来 看 ， 由 于 报 文 送出 后 会 
从 不 同 的 对 象 返 回应 答 ， 因 此 无 法 再 次 处 理 返回 的 报 文 。 


具体 来 说 ， 假 设 有 客户 端 向 终点 VIP 地 址 发 出 请 求 报 文 ， 若 使 用 NAT 
策略 ， 在 负载 均衡 收 到 该 报 文 后 ， 会 把 终点 地 址 转换 为 真实 服务 器 的 IP 
地 址 再 传送 给 真实 服务 器 。 虽 然 真实 服务 器 在 接 到 报 文 后 会 返回 应 答 ， 

但 所 返回 的 报 文 的 起 始 地 址 却 变 成 了 真实 服务 器 的 地 址 。 如 果 该 返回 的 
报 文 经 由 负载 均衡 器 ， 则 起 始 地 址 会 转换 为 VIP， 不 会 引发 问题 ; 但 若 
真实 服务 器 与 客户 端 存 在 于 同一 网 络 中 ， 则 没 必要 经 过 负载 均衡 器 ， 而 
是 直接 将 报 文 送 到 客户 端 上 ， 这 样 就 会 导致 送 往 VIP 的 报 文 由 不 同 于 

VIP 的 地 址 (真实 服务 器 的 IP 地 址 ) 返回 了 应 答 。 


讲 到 这 里 想必 大 家 都 能 领会 了 ， 没 错 ， 我 们 需要 的 正 是 一 种 名 为 DSR 
的 报 文 的 传输 形式 。 只 要 使 用 DSR 的 分 发 方法 ， 就 不 会 有 任何 问题 ， 
都 可 以 正常 地 啊 应 该 报 文 。 里 然 使 用 NAT 的 情况 下 稍 加 努力 也 能 实现 
这 种 效果 ， 但 使 用 DSR 可 以 明显 减轻 负载 均衡 器 的 负载 ， 所 以 在 使 用 
内 部 负载 均衡 器 时 ， 没 必要 费 尽 心力 地 去 应 用 NAT 的 拓扑 结构 。 

















2.5 ”选择 轻 量 高 速 的 存储 服务 器 

2.5.1 存储 服务 器 的 必要 性 

在 派发 大 容量 文件 〈 例 如 视频 或 音乐 等 ) 的 服务 中 ， 内 容 文 件 如 何 存储 
时 第 是 个 很 重要 的 课题 。 特 别 是 在 负载 分 发 的 环境 下 ， 同 一 个 文件 必须 
存放 在 多 台 Web 服务 嚣 中， 如 果 文 件 的 数量 及 容量 都 非常 大 的 话 ， 则 
将 面 对 以 下 问题 : 

部 噜 到 所 有 Web 服务 器 将 花费 很 多 时 间 

必须 在 所 有 Web 服务 器 上 配置 大 容量 硬盘 


鉴于 Web 服务 器 上 的 所 有 文件 都 混杂 在 一 起 ， 根 据 需 要 将 其 分 离 
存放 比较 态 烦 


增设 Web 服务 器 比较 麻烦 (复制 及 同步 文件 很 花 时 间 ) 


虽然 将 所 有 的 数据 都 存储 在 MySQL 等 的 数据 库 服 务 器 中 会 方便 许多 ， 
但 从 取 用 与 维护 的 便利 性 来 考虑 ， 在 大 多 数 情况 下 还 是 希望 以 文件 的 形 
式 进行 存储 。 在 此 情况 下 ， 通 第 的 拓扑 结构 是 使 用 大 容量 的 存储 服务 器 
人 

















人 
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。 当 存 储 服 务 器 发 生 故 障 时 通常 殊 及 面 很 广 
。 万 一 数据 丢失 ， 恢 复 要 花费 大 量 时 间 和 精力 
。 存储 服务 器 易 产 生 瓶 矣 

。 商用 产品 较为 蜗 价 


存储 服务 露 容易 导致 瓶 贷 ， 还 容易 造成 单 点 故障 。 越 是 考虑 发 生 问 题 时 
的 赤 手 状况 ， 对 存储 服务 器 的 应 用 束 越 慎重 。 下 文 将 探讨 存储 服务 器 发 





生 故 障 时 的 细 市 。 
存储 服务 器 容易 导致 里 点 故障 


在 Web 服务 器 挂 载 到 存储 服务 器 (NFS) 上 时 ， 若 存储 服务 器 因 故 停 
止 运作 ， 将 会 造成 很 严重 的 事态 。 以 下 引用 man nfs 的 介绍 。 


soft : 如 果 访 问 NFS 文件 的 操作 没有 被 服务 器 做 出 啊 应 ， 将 对 调用 的 
程序 返回 IO 错误 。 默 认 一 直 重 试 对 文件 的 操作 


hard : 如 果 访 问 NFS 文件 的 操作 没有 被 服务 器 做 出 响应， 将 在 控制 台 
上 显示 “server not responding”， 同 时 也 会 继续 重 试 对 文件 的 操作 ， 直 到 
服务 器 做 出 啊 应 为 止 


intr : 如 果 访 问 NFS 文件 的 操作 超时 ， 而 且 其 NFS 链接 的 命令 为 
hard， 则 人 允许 中 断 NFS 请 求 ， 在 中 断 的 情况 下 对 应 用 程序 返回 
EINTR， 默 认 不 允许 中 断 文 件 操作 


引 自 man nfs 


也 就 是 说 ， 在 存储 服务 器 停止 期 间 ，Web 服务 器 将 会 无 限 重 试 对 NFS 
的 文件 操作 。 其 结果 会 造成 Web 服务 器 访问 文件 的 等 待 时 间 变 长 ， 进 
而 造成 无 法 浏览 其 他 页 面 的 情况 (服务 停止 ，。 男 外 在 文件 操作 不 能 
断 (intr 没有 被 指定 ) 的 情况 下 ， 也 会 导致 Apache 无 法 重启 。 


虽说 将 挂 载 选项 指定 为 soft 或 intr 能 够 在 一 定 程度 上 改善 问题 ， 但 在 
NFS 被 作为 操作 系统 的 功能 (文件 系统 ) 装载 的 情况 下 ， 调 整 Web 应 
用 程序 的 超时 时 间或 中 止 文 件 操作 并 不 可 行 。 因 此 在 文件 操作 超时 前 的 
等 待 时 间 中 ， 奉 Web 服务 器 的 进程 数 超出 限制 ， 就 会 导致 服务 停止 。 


存储 服务 器 容易 造成 瓶颈 


存储 服务 器 不 仅 容易 导致 单 点 故障 ， 还 易 出 现 瓶颈 的 问题 。 虽 然 Web 
服务 器 的 状态 可 以 被 监控 ， 比 如 可 以 同时 监控 10 台 、20 台 Web 服务 器 
的 状态 ， 但 NFS 服务 器 却 不 能 被 监控 ， 所 以 此 处 知 出 现 瓶 弄 ， 再 去 皖 
救 是 很 困难 的 。 如 图 2.5.1 所 示 ， 虽 然 可 以 考虑 增设 NFS 服务 器 的 方 
法 ， 但 实际 上 不 能 解决 的 问题 有 很 多 。 这 是 由 于 访问 量 集中 的 内 容 大 多 
都 是 才 更 新 的 新 内 容 ， 或 者 是 具有 东 种 推广 效果 的 内 容 。 也 就 是 次 ， 在 




















访问 比较 集中 的 情况 下 ， 会 有 很 多 用 户 同 时 请 求 同 一 数据 ， 即 便 根据 目 
录 对 NFS 1 区 分 ， 也 依然 会 造成 用 户 的 访问 请 求 集中 于 同 
一 台 NFS 服务 器 。 







mount -t nfs nfs1:/ /mnt/Anfs1 
mount -t nfs nfs2: /mntAnfs2 
mount -t nfs nfs3> /mntinfs3 






图 2.5.1 NEFS 服务 器 的 增设 案例 


男 外 ， 如 果 仅 考虑 负载 问题 的 话 ， 如 图 2.5.2 所 示 ， 虽 然 可 以 根据 Web 
服务 器 区 分 所 挂 载 的 NFS 服务 器 ， 但 这 种 拓扑 结构 会 造成 无 法 确保 多 
台 NFS 服务 器 中 文件 的 整合 性 。 在 打开 内 容 时 ， 必 须 向 所 有 的 NFS 服 
务 絮 传送 同样 的 文件 。 而 当 文 件数 量 达 到 相当 庞大 的 规模 时 ， 确 保 所 有 
服务 器 的 内 容 相 同 将 会 是 很 困难 的 工作 。 











图 2.5.2 ”NES 服务 器 的 分 发 示例 

2.5.2 ”理想 的 存储 服务 器 

综 上 上 所 述 ， 理 想 的 存储 服务 器 完 竟 是 怎样 的 呢 ? 

。 在 大 量 访问 到 来 时 也 依然 快速 ， 不 会 出 现 瓶 颈 

。 能 避免 针对 多 台 服 务 器 的 文件 同步 工作 

EE 避免 单 点 故障 的 出 现 

。 若 能 用 开源 软件 实现 就 更 好 了 

下 文 将 逐步 介绍 满足 以 上 要 求 的 存储 服务 器 NFS 的 建立 。 
减轻 负载 


就 许多 Web 网 站 而 言 ， 最 希望 谋求 的 是 存储 服务 器 的 * 读 取 速 度 " 和 "“ 破 
盘 容 量 ”， 而 没 必要 妃 求 存储 服务 器 的 “ 写 入 速度 ”。 


是 “会 话 信 息 ” 以 及 “个 人 信息 "等 。 由 于 会 话 信 
是 临时 的 数据 ， 所 以 使 用 memcached 等 的 缓存 服务 嚣 即 可 ; 而 个 人 


ZI 





言 轧 则 放 到 数据 库 中 更 为 合适 。 也 就 是 说 ， 只 要 存储 服务 器 能 大 量 存储 
视频 、 音 频 等 较 大 容量 的 数据 ， 且 能 够 将 必要 的 数据 快速 读 出 就 可 以 
了 。 


如 此 这 般 确 实 能 大 幅 减轻 Web 服务 器 的 负载 量 。 在 使 用 存储 服务 器 
时 ， 例 如 在 面向 NFS 的 平台 开发 Web 应 用 程序 时 ， 使 用 诸如 Jave 或 
PHP 等 语言 ， 也 可 以 像 处 理 普通 资料 一 样 处 理 Web 服务 器 上 的 资料 ， 
因此 通过 HTTP 来 操作 文件 这 种 方式 ， 开 发 者 想必 也 会 很 快 适应 的 。 


2.5.3 ”将 HTTP 作为 存储 协议 使 用 


通过 以 上 的 说 明 可 以 看 出 ， 通 过 在 存储 服务 器 上 搭建 微型 Web 服务 

器 ， 就 可 以 大 人 致 解决 性 能 方面 的 问题 。 我 们 在 这 里 构建 了 如 图 2.5.3 的 
系统 ， 图 2.5.3 中 的 “WS” 就 是 存储 服务 器 。 昌 然 文件 的 写 入 需要 NFS， 
但 没 必 要 在 所 有 的 服务 器 上 都 挂 载 ， 只 需 在 将 文件 上 传 到 服务 器 时 挂 载 
足以 。 图 2.5.3 的 “Master”* 束 是 这 样 设置 的 ， 其 他 的 服务 器 (Web 服务 
器 ) 并 不 使 用 NFS， 而 是 在 WS 中 经 由 HTTP 来 获取 文件 。 





NFS 服务 器 


HTTP GET 


HITP GET Web 服务 器 


HTTP GET 





图 2.5.3 ”结合 了 NFS 和 HTTP 的 存储 服务 器 


轻 量 Web 服务 器 的 选择 


在 WS 中 所 使 用 的 Web 服务 器 均 需 要 轻巧 快速 。 即 使 没有 Apache 那样 
腕 肿 的 各 项 功能 也 没有 关系 。 因 此 需要 舍弃 CGI、SSL 等 动态 网 页 生成 
的 功能 ， 只 要 确保 能 高 速 稳定 地 传输 静态 文件 即 可 。 在 笔者 的 环境 中 ， 
通过 使 用 thttpd20 来 提供 HTTP 的 访问 ， 就 能 够 显著 提升 性 能 。 尤 其 是 
在 并 发 量 集中 时 段 ， 更 能 表现 其 绝 佳 的 处 理性 能 。 


20URL http://www.acme.com/software/thttpd/ 


在 前 文中 提 到 了 在 访问 量 集中 时 ， 用 户 会 集中 请 求 同 一 数据 ， 即 会 出 现 
同一 文件 被 反复 读 取 的 访问 模式 。 该 数据 基本 上 都 被 缓存 到 了 存储 服务 
器 的 内 存 中 。 由 于 thttpd 可 以 将 存储 服务 器 内 存 中 的 数据 直接 传送 ， 因 
此 并 未 加 重 存储 服务 需 磁 盘 IO 的 负担 ， 这 样 便 解决 了 存储 服务 器 的 瓶 


颈 问 题 。 
利用 HTTP 的 优势 


与 NFS 相 比 ， 可 以 说 HTTP 是 服务 器 和 客户 端 之 间 的 桥梁 。 在 Web 服 
务 器 所 挂 载 的 NFS 宕 机 的 情况 下 ，NEFS 服务 器 停止 会 造成 文件 系统 上 
的 处 理 停止 ， 即 便 重启 Apache 也 无 法 解决 该 问题 。 


但 硅 使 用 HTTP 的 话 ， 在 Web 应 用 程序 痢 就 能 自由 地 设 定 超 时 时 间 ， 
从 而 很 容易 就 能 检查 出 存储 服务 器 的 异常 情况 并 返回 错误 信息 ， 以 此 便 
能 在 一 定 程度 上 回避 央 为 存 备 服务 喜 故 障 而 引 必 标 个 网 站 停止 服务 的 风 


险 。 








2.5.4 ”遗留 的 问题 


至 此 我 们 已 经 实现 了 “即便 出 现 大 量 访问 也 不 会 引起 服务 器 瓶 宽 的 高 速 
存储 服务 圳 ”， 但 仍 不 知 如 何 “ 规 避 单 点 故障 ”及 “避免 多 人 台 服 务 需 文件 同 
步 ?。 这 两 个 问题 是 相互 制约 的 ， 知 不 想 造 成 单 点 故障 就 需要 增设 更 多 
的 服务 器 ， 但 增设 更 多 的 服务 需 又 会 融 来 多 人 台 服 务 器 文件 同步 的 麻烦 。 
要 解决 这 些 问题 ， 需 要 更 高 级 的 策略 。 


这 两 个 问题 我 们 留 到 3.2 市 来 解决 。 


专栏 








选择 小 巧 轻 便 的 Web 服务 器 
以 下 软件 均 为 小 巧 轻 便 的 Web 服务器: 
e。khttpd〈 图 A) URL http://www.fenrus.demon.n]/ 


kH | 中 pd Linux HTTP Accelerator 区 


Introduction 












kHTTPd is a http-daemon (webserver) for Linux. kKHTTPd is different from other webservers 
in that it runs from within the Linux-kernel as a module ( 


kHTTPd handles only static (file based) web-pages, and passes all requests for non-static 
information to a regular userspace-webserver such as Apache or Zeus. 


Static web-pages are not a very complex thing to serve, but these are very important 
‘to network"-operation. The Linux-kernel is very good at this, for example the nfs (network file 


system) daemon also runs in the kernel. 


By “accelerating" the simple case within the kernel, userspace daemons can do what they are 
‘very good at Generating user-specific, dynamic content 


A khttpd 


。thttpd (图 B) URL http:/www.acme.com/software/thttpd/ 





B thttpd 


。 lighttpd (图 C) URL http://www.lighttpd.net/ 


IMPORTANT all 1.4.x users should upgrade to 1.4.19, all users of 1.5-svn 
三 should at least upgrade to r1922. 


|| 0 HTTPD Security, speed, compliance, and flexibility -- all of these describe lighttpd (crom. 

lighty) which is rapidly redefining efficiency of a webserver; as it is designed and 

fly light. optimized for high performance environments. With a small memory footprint 

compared to other web-servers, effective management of the cpu-load, and 
advanced feature set (FastCGI, SCGI, Auth, Output-Compression, URL-Rewriting 
and many more) lighttpd is the perfect solution for every server that is 
suffering load problems. And best of all its Open Source licensed under the 
revised BSD license. 


Web 2.0 


lighttpd powers several popular Web 2.0 sites like YouTube, wikipedia and 
meebo. lts high speed io-infrastructure allows them to scale several times better 
with the same hardware than with alternative web-servers. 


This fast web server and its development team create a web-server with the 
needs of the future web in mind: 


e。 Faster FastCG| 
e COMET meets mod_mailbox 
e。 Async IO 





图 C lighttpd 


首先 是 khttpd， 它 是 作为 Linux 的 内 核 模块 安装 的 Web 服务 器 。 正 
是 由 于 它 是 作为 内 核 执 行 的 ， 因 此 具备 强劲 的 性 能 。 但 由 于 涉及 内 
核 可 能 会 导致 死机 ， 本 来 可 以 期 每 在 以 后 的 版 本 中 加 以 改善 ， 但 可 
惜 的 是 在 内 核 2.5 的 时 候 已 经 删除 了 相关 代码 ，2.6 版 时 就 已 经 完 
全 消失 了 ， 因 此 笔者 不 得 不 放弃 对 它 的 使 用 。 虽 然 此 设想 很 值得 玩 
味 ， 但 在 内 核 空间 处 理应 用 程序 协议 方面 好 像 还 存在 一 些 问 题 。 


thttpd 和 lighttpd 都 是 轻巧 快速 的 Web 服务 器 软件 。 至 于 选择 哪个 
确实 很 伤 脑筋 。 根 据 笔者 的 亲自 验证 ， 二 者 在 性 能 上 几乎 没有 区 
别 。 虽 然 lighttpd 的 功能 更 多 ， 但 鉴于 thttpd 更 简单 易 用 ， 于 是 笔 
者 选择 了 thttpd。 


第 3 章 ”进一步 完善 不 间断 的 基础 
设施 一 -DNS 服务 器 、 存 储 服务 
器 、 网 络 


3.1 DNS 服务 器 的 元 余 


3.1.1 DNS 服务 器 元 余 的 重要 性 
虽说 DNS 服务 器 的 故障 并 不 那么 常见 ， 但 一 旦 发 生 问 题 束 要 花 很 长 时 
间 才 能 查 明 原因 。 为 了 实现 不 间断 的 基础 设施 ， 将 DNS 服务 器 进行 元 
本 节 我 们 将 围绕 着 下 列 几 点 来 探讨 DNS 服务 器 的 元 
。 利 用 解析 库 (Resolver Library) 进行 见 余 ， 有 降低 性 能 的 风险 
。 基 于 服务 器 集群 实现 DNS 的 见 余 
> 利用 VRRP 的 拓扑 结构 
DNS 服务 器 的 负载 分 友 
3.1.2 ”使 用 解析 库 实现 见 余 及 存在 的 问题 
为 了 实现 DNS 的 见 余 ， 可 像 图 3.1.1 那样 在 /etc/resolv.conf 中 指定 多 个 
DNS 服务 器 。 应 用 程序 进行 域名 解析 时 使 用 的 解析 库 ， 会 以 
/etc/resolv.conf 为 准 取得 目的 DNS 服务 器 。 具 体 在 man resolv.conf 中 
有 下 列 说 明 ， 请 留意 有 关 同 时 指定 多 个 DNS 服务 器 的 说 明 。 
name server (域名 服务 器 〉 的 IP 地 址 
name server 的 网 络 上 的 IP 地 址 (采用 圆 点 记 法 ) ， 可 以 被 解析 。 最 多 


有 MAXNS 台 目前 为 3 台 ， 具 体 请 查看 <resolv.h>) 可 以 被 列 出 来 ， 
个 name server 都 对 应 有 name server 关键 字 ， 在 列 出 多 个 name servers 











时 ， 解 析 器 将 会 按照 所 列 出 的 顺序 解析 这 些 name server 〈 轮 询 ) 。 当 

name server 为 空 时 ， 默 认 使 用 本 地 的 name server (这 里 使 用 的 算法 如 

下 : 首先 尝试 访问 name server， 辱 访问 超时 ， 则 尝试 访问 下 一 条 name 
server， 直 到 最 后 一 条 。 至 此 还 未 出 现 应 答 的 情况 下 ， 将 重复 查询 所 有 
的 name server， 直 到 达到 最 大 重 试 次 数 。) 





ee 引 自 man resolv.conf 


DNS 服 务 器 1 DNS 服 务 器 2 
192.168.0.201 192.168.0.202 













| /etc/resolv.conf | 
nameserver 192.168.0.201 
nameserver 192.168.0.202 






三 


图 3.1.1 两 台 DNS 服务 器 的 拓扑 结构 
解析 库存 在 的 问题 


因为 事先 指定 了 多 台 DNS 服务 器 ， 大 一 台 DNS 服务 器 宕 机 ， 也 不 影响 
域名 的 解析 。 


但 是 ,“ 知 访问 超时 ， 则 尝试 解析 下 一 条 name server” 这 一 行为 可 能 会 市 
来 一 些 问 题 。 若 首 条 指定 的 DNS 服务 嚣 宕 机 ， 那 必须 要 等 超时 过 后 

(默认 为 5 秒 ) 才能 轮 到 下 一 条 服务 器 。 这 个 等 待 的 时 间 对 于 服务 器 集 
群 来 说 是 造成 性 能 下 降 的 原因 ， 下 面 以 一 个 简单 的 邮件 服务 器 (Mail 
Server) 为 例 来 说 明 。 


性 能 下 降 的 危险 性 .…… 以 邮件 服务 器 为 例 

邮件 服务 器 在 发 出 邮件 时 ， 将 访问 两 次 DNS， 如 下 所 不: 

四 查询 目的 地 址 的 域名 所 对 应 的 MX 记录 

四 从 MX 的 结果 中 查询 A 记录 以 获取 目标 服务 器 的 卫 地 址 


例如 ， 假 设 此 邮件 服务 器 在 1 小 时 内 必须 发 送 1000 封 邮 件 ， 那 么 最 低 
也 要 每 3 秒 发 送 一 封 。 若 ect/resolv.conf 指定 的 DNS 服务 器 有 一 台 停 止 
工作 ， 那 么 每 次 发 送 都 将 出 现 5 秒 钟 的 超时 时 间 ， 即 送出 该 信 可 能 需要 
花费 10 秒 钟 ， 这 样 一 个 小 时 能 够 处 理 的 邮件 量 也 就 360 封 而 已 ， 处 理 
性 能 还 不 到 期 望 值 的 一 半 。 


这 个 例子 虽然 有 点 极端 ， 但 很 能 说 明 即 使 引入 高 性 能 服务 右 ， 也 不 能 阻 
挡 一 台 DNS 发 生 故 障 时 造成 的 性 能 下 降 。 


DNS 故障 会 造成 很 大 的 影响 


性 能 下 降 时 不 会 出 错 ， 因 此 故障 无 法 被 及 时 发 现 。 在 上 述 邮 件 服务 器 的 
例子 中 ， 即 使 邮件 服务 器 的 性 能 显著 下 降 ， 邮 件 发 送 工作 也 能 完成 ， 系 
统 并 未 停止 运作 。 因 此 当 管 理 人 员 察觉 到 邮件 服务 器 性 能 下 降 而 去 调查 
A 
J 错误。 


DNS 服务 器 的 故障 不 仅 影 响 极 大 ， 而 且 故 障 原因 的 确定 也 很 费时 间 ， 
因此 一 定 要 多 加 注意 。 
3.1.3 ”基于 服务 器 集群 的 DNS 宛 余 


如 前 所 述 ， 解 析 库 (DNS 客户 端 ) 在 察觉 到 DNS 服务 器 异常 时 ， 除 了 
ed 
于 服务 絮 。 


基于 服务 器 集群 的 元 余 将 会 实施 DNS 服务 器 端 不 下 线 的 原则 。 下 文 将 
人 





3.1.4 使 用 VRRP 的 拓扑 结构 


图 3.1.2 是 使 用 VRRP 实现 DNS 服务 器 元 余 的 拓扑 结构 。 图 中 仅 将 
Web 服务 器 及 邮件 服务 器 在 /etc/resolv.conf 中 设 定 为 

VIP 〈192.168.0.200) 。VIP 后 端 则 是 两 台 DNS 服务 器 ， 其 经 由 VIP 实 
现 了 宛 余 。 


图 3.1.2 的 结构 中 利用 了 第 1 章 介 绍 的 keepalived， 各 DNS 服务 器 都 预 
先 安装 了 keepalived。 下 面 将 以 代码 清单 3.1.1 为 例 来 启动 
keepalived.conf， 首 先 启动 的 服务 器 将 作为 Active 服务 器 被 分 配 

VIP 〈192.168.0.200) 。 在 两 台 服 务 器 都 启动 的 情况 下 ， 关 闭 Active 服 
务 器 ， 即 可 确认 是 否 能 够 正常 启动 故障 转移 。 






DNS2 


T92168:0209 





Web 服务 器 
192.168.0.1/24 
图 3.1.2 使 用 VRRP 的 元 余 
代码 清单 3.1.1 DNS 服务 器 的 keepalived.conf 


vrrp_instance DNS { 
state BACKUP 


interface eth6 

garp_master delay 5 

virtual router id 266 

priority 166 

nopreempt 

advert int 1 

authentication { 
auth_type PASS 
auth_pass HIMITSUDESU 

} 

virtual ipaddress { 
192.168.6.2606/24 dev eth0 

} 

} 





在 该 状态 下 ， 当 Active 服务 器 的 keepalived 停止 时 会 发 生 故 障 转移 ， 但 
并 未 发 生 DNS 服务 的 故障 转移 。 因 此 需要 使 用 如 代码 清单 3.1.2 所 示 的 
健康 检查 脚本 。 在 代码 清单 3.1.2 的 脚本 中 ， 每 5 秒 都 会 使 用 dig 命令 
确认 一 下 目 身 的 DNS 情况 ， 硝 dig 命 令 寞 常 结束 ， 则 keepalived 就 会 售 
止 ， 这 样 当 DNS 服务 器 不 可 用 时 也 能 发 生 故 障 转移 。 


代码 清单 3.1.2 dns-check.sh 


#!/bin/sh 
while true; do 
/usr/bin/dig +time=661 +tries=3 @127.0.060.1 localhost.1localnet 
if [ “6” -ne “$?” ]; then 
/etc/init.d/keepalived stop 





在 汞 些 情况 下 ， 当 主 DNS 服务 器 停止 工作 时 ， 可 能 无 法 通过 虚拟 IP 让 
备份 服务 器 顶 丛 主 DNS 服务 嚣 来 完成 工作 (会 提示 超时 ) ， 这 种 问题 
应 该 怎么 解决 呢 ? 


鉴于 DNS 服务 器 的 BIND1 会 在 系统 启动 时 通过 分 配 到 网 卡 IP 地 址 来 
接收 请 求 。 因 此 ， 即 便 在 BIND 运行 过 程 中 被 动态 分 配 了 卫 地 址 ， 也 
无 法 响应 发 往 该 新 的 卫 地 址 的 DNS 请 求 。 所 以 在 发 生 故 障 转移 时 ， 必 


须 重 启 BIND。 





1BIND(Berkeley Internet Name Domain) 是 类 UNIX 系统 上 实现 的 域名 解析 服务 的 软件 包 。 





因为 Keepalived 在 发 生 故 障 转移 时 可 以 运行 任意 命令 ， 因 此 可 以 编辑 
keepalived.conf 文件 的 vrrp_instance 部 分 ， 添 加 下 面 的 语句 来 解决 这 个 
问题 。 


notify master "/etc/init.d/named restart" 


3.1.5 DNS 服务 右 的 负载 分 发 


在 Active/Backup 的 结构 中 ， 两 台 DNS 服务 器 实际 只 有 一 台 工 作 。 为 了 
充分 利用 服务 器 资源 ， 接 下 来 将 介绍 如 图 3.1.3 所 示 的 Active/Active 的 
负载 分 发 结构 。 











虚拟 服务 器 
192.168.0.200 







因为 是 同一 分 段 
( Segment ) 所 以 使 用 DSR 









Web 服务 器 
192.168.0.1/24 


DNS 服务 器 
192.168.0.202/24 ( DNS2 ) 





图 3.1.3 DNS 服务 器 负载 分 发 的 拓扑 结构 (Active/Active 拓扑 结构 ) 


与 Active/Backup 的 拓扑 结构 不 同 的 是 这 里 利用 了 负载 均衡 器 。 
Active/Backup 的 结构 中 ， 每 个 DNS 服务 器 都 安装 了 keepalived 并 为 其 
分 配 了 VIP ; Active/Active 的 拓扑 结构 中 则 将 VIP 分 配给 了 负载 均衡 





器 。 这 无 需 更 改 Web 服务 器 的 设 定 ， 只 需 像 之 前 那样 预先 将 VIP 指定 

到 ect/resolv.conf 中 即 可 。 由 于 同一 子 网 上 的 负载 分 发 不 便 选 择 NAT 拓 

扑 结构 ， 因 此 应 该 使 用 DSR 拓扑 结构 。 另 外 ， 在 各 个 DNS 服务 器 中 ， 

为 了 能 够 处 理发 往 VIP 的 数据 帧 ， 需 要 将 VIP (192.168.200/32) 分 配 

给 回 传 接口 (Loopback Interface) ， 或 者 使 用 iptables 进行 重 定 问 
(Redirect)〉 操作 等 。 


这 里 在 Linux 中 使 用 了 IPVS 及 keepalived 来 搭建 负载 均衡 器 ， 有 具体 请 
参考 代码 清单 3.1.3 中 keepalived.conf 的 内 容 。 由 于 keepalived 并 不 支持 
DNS 的 健康 检查 ， 可 以 使 用 dig 命 令 通 过 确认 MISC_CHECK 状态 来 实 
现 。 


代码 清单 3.1.3 ”负载 均衡 器 的 keepalived.conf 


virtual server group DNS { 
192.168.060.260 53 
} 
virtual server group DNS { 
delay_ loop 5 
lvs_sched rr 
lvs_method DR 
protocol UDP 
real server 192.168.0.201 53 { 
weight 1 
MISC CHECK { 
misc path "/usr/bin/dig +time=6061 +tries=3 0192.168.60.261 
localhost.1localnet" 
misc timeout 5 
} 
} 
real server 192.168.0.202 53 { 
weight 1 
MISC CHECK { 
misc path "/usr/bin/dig +time=601 +tries=3 0192.168.60.262 
localhost.1localnet" 
misc timeout 5 





3.1.6 小结 


DNS 服务 器 在 很 多 不 显眼 的 地 方 进行 着重 要 的 工作 。DNS 服务 器 所 用 
的 软件 通常 是 比较 稳定 的 ， 只 有 极 少数 会 出 现 意 外 故障 ， 因 此 人 们 对 
DNS 服务 器 的 故障 应 对 可 能 并 没有 做 过 多 考虑 。 


然而 一 旦 DNS 服务 器 太 生 故障 ， 仪 查 明 原 因 往 往 都 会 花费 很 多 时 间 ， 
为 了 不 在 故障 友 生 时 浪费 太 多 精力 ， 还 是 有 必要 提前 做 好 准备 的 。 











3.2 ”存储 服务 器 的 元 余 利用 DRBD 实现 镜 


像 


3.2.1 存储 服务 器 的 故 隐 排解 


存储 服务 器 中 存放 了 大 量 的 文件 ， 知 硬盘 故障 造成 数据 丢失 ， 恢 复 是 很 
腑 烦 的。 为 了 能 有 效 恢复 数据 ， 及 时 备份 是 常规 手段 ， 但 要 恢复 所 有 文 
件 依 然 很 花 时 间 。 而 且 一 旦 存储 服务 器 及 生 故 障 ， 涉 及 范围 通常 会 很 
RR 

















造成 故障 的 原因 也 不 仪 仪 是 人 硬盘 问题 ，RAID 控制 器 也 有 可 能 发 生 故 
障 。 当 RAID 控制 器 发 生 故 障 时 ， 如 果 足 够 兽 运 ， 只 需 更 换 RAID 控制 
器 即 可 解决 。 知 造成 了 无 法 写 入 硬盘 等 情况 ， 则 会 有 丢失 数据 的 危险 。 


当然 与 磁盘 相 比 ，RAID 控制 器 发 生 故 障 的 概率 极 低 ， 但 为 了 在 发 生 故 
障 时 保护 数据 ， 也 可 以 考虑 准备 两 台 存 储 服务 占 进 行 见 余 处 理 。 


3.2.2 ”存储 服务 絮 同 步 的 难 斥 


对 存储 服务 絮 进 行 见 余 的 难点 在 于 需要 持续 同步 两 台 服 务 器 的 数据 。 作 
为 最 易 实 施 的 方法 ， 可 以 采用 “将 数据 上 传 两 份 分 别 到 两 个 服务 器 上 ”的 
方式 ， 但 持续 确保 数据 的 完整 性 较为 困难 。 如 果 上 传 程序 不 兼容 ， 则 有 
可 能 导致 只 将 文件 传 给 了 其 中 一 全 服务器， 万 外 操作 的 失误 也 可 能 会 造 
成 只 有 一 人 台 服 务 器 的 数据 进行 了 更 新 。 


当 文件 数 及 容量 较 少 的 时 候 ， 疝 可 利用 简单 的 脚本 来 机 械 地 检查 一 至 

性 ， 但 当 有 成 二 上 万 个 文件 时 ， 数 据 容量 蜗 达 数 百 GB 〈Gigabyte) ， 

这 种 情况 下 要 做 到 此 类 检查 就 很 困难 。 在 无 法 检查 一 致 性 的 情况 下 ， 寿 
继续 依赖 此 设备 进行 同步 ， 可 信赖 性 就 会 大 大 降低 。 











3.2.3 DRBD 


在 两 台 服 务 器 上 以 文件 为 单位 同步 磁盘 检查 一 致 性 时 ， 文 件数 越 多 搜索 
目录 就 越 伦 时 间 。 在 这 种 情况 下 ， 当 磁盘 超过 负载 时 ， 整 个 服务 器 的 性 





能 就 会 大 幅 下 跌 ， 而 使 用 DRBD (Distributed Replicated Block Device， 
分 布 式 复制 块 设备 )“ 技术 即 可 解决 该 问题 。 


2URL http://www.drbd.org/ 


以 下 是 从 DRBD 官网 引用 的 介绍 。 


DRBD 技术 为 实现 高 可 用 的 集群 提供 了 专属 的 块 设 备 。 使 用 专用 的 
网 络 ， 可 以 在 两 台电 脑 的 块 设备 之 间 镜 像 数 据 。 简 单 理 解 为 网 络 上 
的 RAID1 结构 即 可 。 


So 引 目 http://www.drbd.jp/ 
DRBD 架构 


如 图 3.2.1 所 示 ，DRBD 由 Master 服务 器 及 备份 服务 器 组 成 ， 分 为 以 下 
两 种 拓扑 结构 : 


。 内 核 模块 (设备 驱动 程序 ) 
。 Userland 工具 (控制 程序 ) 


DRBD 并 非 以 文件 单位 来 传送 数据 ， 而 是 针对 块 设备 进行 实时 更 新 。 
此 在 文件 建立 或 更 新 时 ， 无 需 理会 DRBD 及 备份 服务 器 的 存在 。 


DRBD 的 镜像 是 Active/Backup 的 拓扑 结构 。 可 以 对 Active 端的 块 设备 
进行 数据 的 读 写 ， 而 Backup 病 的 块 设备 则 不 会 被 访问 到 。 但 在 8.0.0 版 
本 以 后 ， 通 过 使 用 OCFS (Oracle Cluster File System) 及 GFS (Global 
File System) 等 的 文件 集群 系统 ， 开 始 文 持 Active/Backup 的 拓扑 结 

构 。 虽 然 本 书 执笔 时 〈2008 年 5 月 ) 的 最 新 版 是 8.2.5， 但 笔者 使 用 的 
依然 是 0.7 版 的 环境 ， 这 是 因为 当时 引入 这 项 技术 时 最 新 版 是 0.7。 


以 下 介绍 的 拓扑 结构 以 笔者 系统 中 正在 运行 的 DRBD 0.7 版 拓扑 结构 为 
准 ， 关 于 8.2 版 中 更 新 的 功能 及 设 定 也 会 随时 补充 说 明 。 另 外 ，DRBD 
0.7 版 已 经 于 2008 年 10 月 停止 维护 ， 在 此 之 后 知 要 引入 这 项 技术 ， 请 
使 用 最 新 版 本 。 





3.2.4 DRBD 的 设置 与 启动 


代码 清单 3.2.1 是 运行 DRBD 所 需 的 最 低 限度 的 设置 。 具 体 请 在 
/etc/drbd.conf 文件 中 建立 Master 服务 器 及 备份 服务 器 。 


代码 清单 3.2.1 drbd.conf 


resource re ft 
protocol A; 
on WwWS1 { 
device /dev/drbd6 
disk /dev/sdb1; 
address 192.168.6.2601:7789 ; 
meta-disk internal; 
} 
on ws2 { 
device /dev/drbd6 
disk /dev/sdb1l; 
address 192.168.6.202:7789 ; 
meta-disk internal; 
} 
} 








。 具 体 各 


或 


由 于 仪 做 了 最 低 限度 的 设 定 ， 所 以 代码 清单 3.2.1 显得 很 精 色 
个 项 目的 意义 请 参考 表 3.2.1。 


表 3.2.1 drbd.conf 的 配置 项 目 











resource | 定义 资源 的 块 ， 在 此 定义 了 名 为 “r0” 的 资源 











指定 数据 传送 的 协议 。 可 以 指定 为 A、B、C 三 种 ， 具 体 意义 如 下 
。protocol A: 本 地 磁盘 写 入 结束 ， 数 据 被 发 往 TCP 缓 冲 时 ， 表 示 写 入 操作 完 
成 (重视 性 能 的 异步 传输 ) 

。protocol B: 本 地 磁盘 写 入 结束 ， 数 据 到 达 远 程 主机 时 ， 表 示 写 入 操作 完成 
(NA 

“protocol C: 远程 主机 的 磁盘 上 也 完成 写 入 操作 时 ， 表 示 写 入 操作 完成 〈 重 
视 可 靠 性 的 同步 传输 ) 





























定义 各 个 主机 的 资源 的 块 。 这 里 指定 的 ws1 与 ws2 是 两 个 主机 名 。 通 过 
on uname -na 的 输出 结果 可 判断 目标 主机 《以 on 开头 定义 的 主机 名 ) 是 否 取得 





了 期 望 的 配置 结果 











指定 DRBD 的 逻辑 块 设备 。 在 此 指定 的 是 运行 mkfs 和 mount 的 块 设备 























指定 想 要 镜像 的 物理 设备 。 可 以 指定 任意 块 设备 ， 若 指定 回 
(Loopback Device ) ， 则 需要 注意 可 能 产生 的 问题 








指定 不 同 的 端口 





间 定 存储 元 数据 的 设备 。 已 经 指定 internal 的 情况 下 ， 需 要 指定 disk 的 块 设 
0 在 8.2 版 中 ， 根 据 块 设备 的 大 小 元 数据 的 大 小 
会 > 局 AF 











启动 DRBD 的 Master 服务 器 


接 下 来 将 启动 DRBD， 首 先 在 Master 上 进行 以 下 操作 ， 图 3.2.2 是 实际 
操作 的 状态 。 


@ 户 动 DRBD 

四 切换 为 Primary 状态 

@ 在 /dev/drbd0 中 建立 文件 系统 

四 将 /devwdrbd0 挂 载 (Mount) 到 /mnt/drbd0 








Ws1l:~# /etc/init.d/drbd start 
Starting DRBD resources: [de se ne ]. 


米 米 米 米 炒米 炒米 米 米 炒米 炒米 炒米 炒米 炒米 炒米 炒米 炒米 炒米 炒米 炒米 米 米 炒米 炒米 炒米 米 米 米 米 米 米 炒米 炒米 米 米 米 米 米 米 炒米 米 米 米 米 米 


DRBD's startup script waits for the peer node(s) to appear. 

- In case this node was already a degraded cluster before the 
reboot the timeout is 6 seconds. [degr-wfc-timeout] 

- If the peer was available before the reboot the timeout will 
expire after 6 seconds. [wfc-timeout] 
(These values are for resource 'r6@'; 6 sec -> wait forever) 

To abort waiting enter 'yes' [ 5]:yes 


ws1l:~# drbdadm -- --do-what-I-say primary all (6.7 版 

WSs1l:~# drbdadm -- -0 primary all (8.2 版 

ws1l:~# mkfs /dev/drbd6 

mke2fs 1.406-WIP (14-Nov-2666 ) 

< 中 间 省 略 > 

This filesystem will be automatically checked every 38 mounts or 
186 days, whichever comes first. Use tune2fs -c or -i to override. 
WSs1:~# mount /dev/drbde /mnt/drbde/ 





图 3.2.2 DRBD 的 行为 


启动 DRBD 后 ， 首 先 请 连接 到 目标 镜像 。 在 第 一 次 安装 时 没有 对 象 存 
在 的 情况 下 ， 会 出 现 “To abort waiting enter 'yes'” 这 条 信息 并 
进入 等 待 超时， 这 时 输入 “yes” 以 中 断 。 启 动 完成 后 ，DRBD 

为 “Secondary 状态 ”， 此 为 等 待 数据 从 Primary 状态 的 DRBD 流入 的 答 
机 状态 ， 该 状态 下 无 法 写 入 及 读 取 块 设备 。 


为 了 将 文件 系统 进行 挂 载 操 作 ， 需 要 使 用 drbdadm 命令 切换 到 Primary 
状态 。 通 常 切 换 到 Primary 状态 需要 使 用 drbdadm 的 primary 命令 ， 
但 在 初次 建立 的 情况 下 ， 还 必须 开启 0.7 版 本 的 --do-what-I-say 选 
项 ， 或 者 8.2 版 本 的 -o 选项 。 成 功 切 换 到 Primary 状态 后 ， 即 可 对 
/dev/drbd0 和 /dev/drbd1 进行 相同 的 操作 了 。 


启动 DRBD 的 备份 服务 器 


同样 在 备份 服务 器 上 启动 DRBD， 至 此 Master 服务 器 与 备份 服务 器 的 
同步 就 开始 了 。 有 具体 情况 可 以 参考 图 3.2.3 进行 确认 。 同 步 工 作 完 成 后 
安装 也 就 结束 了 。 如 果 在 Master 服务 器 的 /mnt/drbd0 中 建立 文件 并 写 
入 数据 ， 数 据 就 会 被 传送 到 备份 服务 器 。 








WS2:~# /etc/init.d/drbd start 

Starting DRBD resources: [de s6 ne |]. 

Ws2:~# cat /proc/drbdop 

version: 6.7.25 (api:79/proto:74) 

GIT-hash: 3a9c7c136a9af8df921b3628129dafbe212ace9f build by root@ 

Ws2, 2607-12-31 22:20:38 

86: cs:SyncTarget st:Secondary/Secondary ld:Inconsistent 
ns:0 nr:528 dw:528 dr:6 al:6 bm:6 1o:6 pe:6 ua:6 ap:6 

[i ] sync'ed: 0.7% (666832/667360)K 
finish: 6:27:47 speed: 264 (264) K/sec 





图 3.2.3 确认 DRBD 的 同步 
3.2.5 DRBD 的 故障 转移 


DRBD 在 Master 服务 器 发 生 错 误 时 ， 并 不 会 目 动 切换 到 备份 服务 器 ， 
因此 需要 使 用 keepalived 来 实现 故障 转移 。 


手动 切换 


在 实现 自动 进行 故障 转移 前 ， 首 先 请 答 试 手动 切换 。 为 了 实现 故障 转 
移 ， 需 要 将 Master 的 DRBD 切换 为 Secondary 状态 。 为 避免 块 设备 挂 
载 失 败 ， 需 要 事先 停止 NFS 服务 器 〈 即 网 络 文 件 服务 器 ) 并 取消 挂 
载 。 本 处 理 的 脚本 如 代码 清单 3.2.2 所 示 ， 该 脚本 应 该 保存 在 两 台 服 务 
器 的 /usr/local/sbin/drbd-backup 中 。 














代码 清单 3.2.2 drbd-backup 


#!/bin/sh 
/etc/init.d/nfs-kernel-server stop 


umount /mnt/drbd6 
drbdadm secondary all 





将 备份 服务 器 作为 Master 服务 器 使 用 时 ， 需 要 将 DRBD 切换 到 Primary 
状态 ， 并 在 确认 挂 载 块 设备 后 启动 NFS 服务 器 。 本 脚本 如 代码 清单 
3.2.3 所 示 ， 保 存在 两 台 服 务 器 的 /usr/local/sbin/drbd-master 中 。 


代码 清单 3.2.3 drbd-master 





#!1/bin/sh 
drbdadm primary all 


mount /dev/drbd6 /mnt/drbd6 
/etc/init.d/nfs-kernel-server start 





为 了 更 加 容易 地 确认 数据 同步 ， 需 要 事先 在 Master 的 /mnt/drbd0 中 创 
建 恰当 的 文件 。 然 后 在 Master 服务 器 上 执行 drbd-backup 命 令 ， 将 两 
台 服 务 右 切换 为 Secondary 状态 。 最 后 在 备份 服务 器 上 执行 drbd- 


master 命令 ， 在 切换 到 Primary 状态 后 ，/dev/drbd0 就 会 被 挂 载 到 
/mnt/drbd0 上 。 


至 此 应 该 已 经 在 Master 服务 器 上 建立 了 适当 的 文件 。 知 以 后 Master 服 
务 嚣 发生 故 障 ， 将 自动 执行 这 些 步骤 触发 故障 转移 。 下 文 将 介绍 利用 
keepalived 的 VRRP 功能 来 实现 NFS 服务 器 元 余 的 方法 。 


keepalived 的 配置 


图 3.2.4 是 将 NFS 服务 器 通过 VRRP 实现 宛 余 的 例子 。 代 码 清单 3.2.4 
是 本 拓扑 结构 中 keepalived 的 配置 。VIP 为 192.168.0.200，NFS 客户 端 
192.168.0.200:/mnt/drbd0/ 已 经 挂 载 在 了 NEFS 上 。 即 使 服务 器 发 生 故 障 
转移 ，NFS 客户 端 也 无 需 重 新 挂 载 。 


Master 服务 器 | 
192.168.0.201/24 192.168.0.202/24 


Master 服务 器 备份 服务 器 
192.168.0.201/24 192.168.0.202/24 





图 3.2.4 NES 服务 器 的 见 余 


代码 清单 3.2.4 ”keepalived.conf (DRBD 用 ) 





vrrp_instance DRBD { 
state BACKUP 
interface etho 
garp_master delay 5 


virtual router id 266 
priority 166 
nopreempt 
advert int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 
} 
virtual ipaddress { 
192.168.6.266/24 dev ethe6 


notify master "/usr/local/sbin/drbd-master" 
notify_ backup "/usr/local/sbin/drbd-backup" 
notify fault "/usr/local/sbin/drbd-backup" 





在 此 初次 出 现 的 参数 如 表 3.2.2 所 示 。 
表 3.2.2 ”keepalived.conf 的 配置 项 目 〈 新 出 现 的 ) 


Eo 











jopreempt ”| 将 VRRP 的 抢占 模式 设 为 无 效 。 关 于 抢占 模式 的 详细 介绍 请 参考 第 1 
Preemp 章 (其 目标 是 避免 任何 不 必要 的 故障 切换 ) 


当 VRRP 为 Master 状态 时 ， 指 定 想 要 执行 的 





notify_backup | 当 VRRP 为 备份 状态 时 ， 指 所 


notify_fault ”| 当 网 络 接口 的 链接 断 开 时 ， 指 定 想 要 执行 的 








notify_master 及 notify_backup 已 经 在 之 前 的 代码 清单 3.2.2、 代 码 清 单 
3.2.3 中 进行 了 指定 ， 因 此 在 故障 转移 时 可 以 更 改 DRBD 的 状态 。 在 本 
设 定 中 ， 当 备份 服务 器 切换 为 Master 服务 器 时 ，drbd-master 会 被 执行 
并 触发 故障 转移 。 


但 万 一 keepalived 停止 运作 ， 将 会 导致 notify_master 及 notify_backup 的 


脚本 无 法 运行 。 若 Master 的 keepalived 停止 运作 ，Master 的 DRBD 将 
在 Primary 的 状态 下 发 生 故 障 转移 ， 进 而 就 会 导致 备份 服务 器 的 drbd- 
master 出 现 错误 。 因 此 ， 在 keepalived 停止 运作 时 ， 一 定 要 确保 执行 
drbd-backup 的 脚本 。 


利用 daemontools 来 控制 keepalived 


为 了 解决 该 问题 ， 使 用 代码 清单 3.2.5 作为 keepalived 的 启动 脚本 。 但 
此 处 并 非 直接 启动 /etc/init.d/keepalived， 而 是 使 用 daemontools 的 run 脚 
本 。 有 具体 将 在 5.4 节 中 讲解 ，daemontools 中 通过 这 样 的 脚本 可 以 控制 守 
护 程 序 的 启动 。 在 本 节 中 ， 我 们 将 使 用 wait 等 得 keepalived 结 

束 ，wait 完毕 后 就 会 执行 drbd-backup 脚本 。 由 于 从 supervise 发 来 的 
信号 会 经 由 trap 命令 传送 到 keepalived 中 ， 因 此 同样 也 可 利用 
daemontools 来 直接 控制 keepalived 的 操作 。 通 过 使 用 此 工具 ， 即 便 
keepalived 由 于 什么 原因 停止 运作 了 ， 也 一 定 可 以 执行 drbd-backup 脚 
本 。 





代码 清单 3.2.5 ”keepalived 的 启动 脚本 


#!/bin/sh 

[ -f /var/run/vrrp.pid ] && exit 
exec 2>&1 

trap 'kill -TERM $PID' TERM 
trap 'kill -HUP $PID' HUP 


trap 'kill -INT $PID' INT 
/usr/local/sbin/keepalived -n -S 1 --vrrp & 
PID=$! 

wait $PID 

/usr/local/sbin/drbd-backup 








3.2.6 NEFS 服务 器 故障 转移 时 的 注意 事项 


由 于 DRBD 所 镜像 的 设备 是 NFS 共有 的 ， 因 此 不 能 在 Master 服务 器 上 
启动 NFS 服务 器 。 实 施 NFS 服务 器 的 元 余 时 有 可 能 出 现 不 同 于 Web 服 
务 器 及 邮件 服务 器 了 元 余 时 所 遭遇 的 问题 ， 因 此 需要 多 加 留意 。 因 故障 转 
移 而 成 为 新 Master 的 NFS 服务 器 并 没有 被 任何 客户 端 所 挂 载 ， 知 此 时 
没有 问 NFS 客户 端 声 明 故 障 转 移 导 致 了 服务 器 切换 ，NFS 客户 端 就 会 
认为 已 经 进行 了 挂 载 并 访问 文件 ， 但 这 时 NFS 服务 器 则 会 认为 没有 挂 


载 的 客户 端 发 起 了 文件 请 求 ， 从 而 拒绝 该 请 求 。 为 了 解决 该 问题 ， 可 使 
用 以 下 方法 。 


同步 /var/lib/nfs/ 


NFS 服务 器 的 连接 信息 被 存储 在 /var/lib/nfs/ 下 ，DRBD 将 该 参数 
进行 镜像 操作 ， 以 便 在 故障 转移 时 能 实现 正常 切换 。 但 根据 分 发 策 
略 (Distribution〉 ，NEFS 服务 器 的 启动 脚本 中 有 时 是 使 

用 exportfs 命 令 来 清除 连接 信息 的 ， 因 此 需要 额外 创建 不 清除 连 
接 信息 的 脚本 ， 并 在 发 生 故 障 转移 时 通过 该 脚本 局 动 NFS 服务 器 


使 用 nfsd 文件 系统 


nfsd 文件 系统 Linux 的 固有 功能 ， 专 门 被 用 来 文 持 NFS 服务 器 的 元 
余 。 在 执行 mount -t nfsd nfsd /proc/fs/nfsd 命 令 的 状态 下 
启动 的 NFS 服务 器 并 没有 使 用 /var/lib/nfs/ 目录 ， 因 此 即便 是 完 
陌生 的 NFS 客户 端 发 来 访问 请 求 ， 也 会 像 该 客户 端 已 经 挂 载 了 那 
人 
日 当 便 入 








3.2.7 备份 的 必要 性 


即便 在 DRBD 中 将 磁盘 做 了 镜像 处 理 ， 也 依然 不 能 保证 100% 的 安全 ， 
例如 将 文件 误 删 后 依旧 难以 找 回 。 镜 像 是 DRBD 的 优点 ， 但 万 一 文件 
被 误 删 ， 就 立刻 会 被 反映 到 备份 服务 器 上 去 ， 从 这 一 层面 上 来 看 ， 镜 像 
也 是 一 个 致命 的 弱点 。 因 此 虽然 很 花 时 间 ， 但 还 是 做 好 最 坏 的 打算 ， 务 
必 做 好 数据 的 备份 ， 不 过 也 不 用 每 天 都 进行 备份 。 





3.3 网络 的 元 余 
3.3.1 LUL2 上 部 件 的 宛 余 


前 两 章 以 及 第 3 章 的 前 儿 节 都 在 探讨 OSI 参考 模型 下 的 第 三 层 〈L3=IP 
层 ) 与 第 七 层 (L7= 应 用 层 ) 的 见 余 问题 。 但 奇 下 层 的 物理 网 络 (L1= 
物理 层 ) 或 以 太 网 (Ethernet) 级 别 的 通信 发 生 故 障 ， 即 便 上 层 正 常 运 
作 ， 也 会 导致 整个 系统 的 故障 。 


本 节 中 将 讲解 在 L1 及 工 2 的 结构 元 素 发 生 故 障 时 系统 也 不 会 停止 的 元 
余 策 略 。 通 过 对 LVL2 做 出 见 余 处 理 ， 不 仅 能 避免 故障 ， 还 能 细 化 系统 
维护 层面 的 管理 *。 


- 例 如 在 笔者 管理 的 环境 中 ， 就 曾 对 所 有 的 交换 机 及 负载 均衡 右 兼 路 由 器 都 做 过 不 间断 的 处 
理 。 


驱动 绑 定 、RSTP 









































3.3.2 ”故障 点 

在 L1L2 的 结构 元 素 中 ， 通 常 是 以 下 原因 导致 故障 的 : 

@LAN 网 线 

四 NIC (网 卡 ) 

@ 网 络 交换 机 的 端口 

@@ 网 络 交 换 机 

LAN 网 线 故障 是 因为 断 线 或 线 绕 接 触 不 良 造成 的 ， 以 笔者 的 经 验 来 


看 ， 通 党 表现 为 网 络 连接 的 上 行 及 下 行 都 出 现 问题 。 与 网 卡 连接 的 网 络 
交换 机 的 特定 端口 也 有 可 能 发 生 故 障 。 当 然 网 络 交 换 机 目 号 也 有 可 能 发 








ee ee ee。 


接 下 来 将 仔细 探讨 各 故障 元 素 。 @ 一 鼻 是 服务 需 与 网 络 交换 机 之 间 的 
连接 方面 的 故障 ， 在 此 统称 为 “连接 故障 ”。 


而 交换 机 与 交换 机 之 间 也 会 故 生 @ 和 @ 那样 的 故障 ， 在 此 统称 为 “ 交 
换 机 间 的 连接 故障 ”。 


像 @ 那样 的 网 络 交 换 机 故障 则 被 称 为 “交换 机 故障 ”。 
下 文 将 会 就 如 何 避 免 这 些 故障 进行 一 系列 探讨 。 
3.3.3” 链 路 元 余 与 驱动 绑 完 


为 避免 连接 故障 ， 需 要 将 服务 器 与 交换 机 之 间 的 连接 进行 元 余 处 理 。 也 
就 是 说 ， 需 要 在 服务 器 上 准备 多 块 NIC 网卡) ， 同 时 将 LAN 网 线 连 
接 到 这 些 网 卡 上 。 当 然 也 不 仅仅 只 是 准备 多 块 网 卡 而 已 ， 为 了 能 使 用 这 
些 网 卡 进 行 通信 ， 还 需 对 每 个 网 卡 分 配 IP 地 址 。 这 样 一 来 ， 每 当 连 接 
到 网 络 的 主机 之 间 进 行 通信 时 ， 都 需要 诊断 哪个 网 卡 可 用 ， 据 此 来 切换 
目的 地 址 ， 但 这 几乎 是 无 法 做 到 的 。 为 了 解决 该 问题 ，Linux 中 提供 了 
驱动 绑 定 (Driver Binding) 这样 的 工具 


驱动 绑 定 


驱动 绑 定 4 是 Linux 自 带 的 网 络 驱 动 的 组 件 之 一 。 驱 动 绑 定 将 多 块 物理 
网 卡 《〈 物 理 NIC) 进行 托管 ， 以 作为 单 块 逻 辑 网 卡 〈 逻 辑 NIC) 使 用 。 























4 关于 驱动 绑 定 ，Linux 内 核 的 附属 文档 是 最 主要 的 参考 信息 ， 请 在 kernel.org 下 载 所 发 布 的 软 
件 包 ， 并 访问 其 中 的 Linux-2.6.X.X/Documentation/networking/bonding .text。 















































逻辑 网 卡 不 但 可 以 作为 赋予 地 址 的 对 象 网 卡 来 使 用 ， 还 可 以 作为 Linux 
内 核 的 IP 别名 (IP Alias) 功能 、VLAN (Virtual LAN) 功能 、 桥 接 功 
能 等 的 对 象 网 卡 来 使 用 。 在 使 用 逻辑 网 卡 进 行 通信 时 ， 根 据 驱 动 绑 定 中 
的 设置 会 将 请 求 分 配 到 物理 网 卡 上 ， 并 检查 分 配 的 目标 物理 网 卡 是 否 存 
在 故障 ， 以 避免 将 请 求 分 配 到 有 故障 的 物理 网 卡 上 。 


驱动 绑 定 从 多 个 物理 网 卡 中 选择 一 个 用 于 通信 时 ， 可 使 用 多 种 模式 ， 具 
体 可 参考 表 3.3.1 的 选择 项 ”。 但 无 论 选择 哪个 模式 ， 若 物理 网 卡 发 生 故 
隐 ， 都 没 法 让 该 网 卡 恢复 使 用 。 





























5 在 这 些 模式 中 ，active-backup 是 使 用 方法 最 简单 的 模式 ， 笔 者 管理 的 环境 中 使 用 的 就 是 
active-backup 模式 。 














表 3.3.1 驱动 绑 定 的 行为 模式 * 


balance-rr | 根据 需要 送 达 的 数据 帧 切换 物理 网 卡 〈《 轮 询 ) 


则 只 使 用 该 网 卡 。 帮 该 网 卡 发 生 故 障 ， 则 切换 到 下 
一 上 网 


























将 发 出 请 求 与 接收 请 求 的 MAC 地 址 进行 XOR( 异 或 ) 运算 后 再 决定 使 
哪个 物理 网 卡 











0 0 发 送 到 所 有 物理 网 卡 上 ， 这 些 数 据 帧 均 相 














使 用 IEEE 802.3ad 协议 ， 在 交换 机 之 间 动 态 创建 链 路 聚合 (Link 
Aggregation) 









































balance-tlb | 选择 负 蓓 量 最 低 的 物理 网 卡 进 行 发 送 。 接 收 请 求 使 用 特定 的 物理 网 卡 




















低 的 物理 网 卡 进行 发 送 及 接收 














※ 引 自 linux 2.6.24 版 内 核 的 bonding.txt 文件 。 











驱动 绑 定 还 有 个 很 重要 的 参数 ， 可 以 监控 物理 网 卡 的 故障 。 有 
MII (Media Independent Interface) 监控 和 ARP (Address Resolution 
Protocol) 监控 两 种 监控 种 类 可 供 选 择 。 


MII 监控 是 监控 可 能 出 现 的 物理 网 卡 链 路 故障 〈Link Down) ， 虽 然 可 
以 很 高 效 地 在 短 时 间 内 检查 出 故障 ， 但 却 无 法 监控 出 网 卡 链 路 正常 
(Link Up) 时 出 现 的 通信 故障 6。 























6 在 笔者 管理 的 环境 中 确实 发 生 过 此 类 故障 ， 自 那 以 后 ， 笔 者 便 开 始 使 用 ARP 监控 。 





ARP 监控 是 对 指定 的 设备 发 出 ARP 请 求 ， 通 过 是 否 接 到 回应 (Reply) 
ee i 村 监控， 所 以 漏 检 故 障 的 风 

今 很 低 ， 但 即便 目标 主机 有 回应 ， 寿 不 能 正确 地 对 该 主机 发 出 ARP 请 
也 会 导致 诊断 错误 。 为 了 降低 漏 检 的 风险 ， 可 通过 驱动 绑 定 对 ARP 
请 求 目标 绑 定 多 个 IP 地 址 (最 多 16 个 ) 。 


3.3.4 交换 机 的 元 余 


即使 通过 使 用 驱动 绑 定 的 方式 绑 定 多 块 物理 网 卡 实现 了 元 余 ， 也 依旧 无 
法 解决 请 求 目标 为 同一 区 换 机 的 交换 机 故障 。 为 了 避免 发 生 交换 机 故 
隐 ， 需 要 准备 多 台 交 换 机 ， 并 将 驱动 绑 定 的 物理 网 卡 连接 到 不 同 的 交换 
机 ， 这 样 交换 机 及 链 路 就 实现 了 如 图 3.3.1 的 @ 所 示 的 宛 余 拓扑 吉 构 “。 


?在 建立 此 拓扑 结构 时 ， 可 供 选 择 的 驱动 绑 定 模 式 有 : active-backup、balance-tlb、balance- 
alb。 在 此 应 用 balance-rr 及 balance-xor 会 导致 交换 机 混乱 ， 进 而 导致 通信 被 阻 断 。 









































图 3.3.1 交换 机 及 链 路 的 见 余 拓扑 结构 


成 功 将 各 个 服务 器 设备 的 网 线 连 接 到 其 他 的 交换 机 后 ， 便 完成 了 驱动 绑 
定 的 部 署 。 另 外 需要 在 两 台 交 换 机 之 间 准 备 LS1-2， 该 LS1-2 将 在 链 路 
故障 时 发 挥 作 用 。 





链 路 故障 时 的 行为 


如 果 交 换 机 之 间 的 连接 LS1-2 发 生 链 路 故障 ，svrl 与 svr2 之 间 的 通信 会 
怎么 样 呢 ? svrl 的 L1-1 发 生 故 障 时 的 情况 如 图 3.3.1 的 \textcircled{b} 所 
示 。 若 需要 从 svrl 发 送 分 组 〈Pocket) 到 svr2， 由 于 革 1-1 无 法 使 用 ， 
因此 使 用 LL1-2 来 进行 传送 。 男 外 ， 因 为 能 够 确保 该 分 组 经 由 sw2 传送 
到 svr2， 因 此 没有 发 生 问 题 。 


相反 ， 从 svr2 传送 到 svrl 的 分 组 则 既 有 可 能 经 由 L2-1 送出 ， 也 有 可 能 
经 由 L2-2 送出 。 若 从 LL2-2 送出 ， 就 会 和 刚刚 一 样 经 由 sw2， 则 该 链 路 
可 用 ; 若 从 LL2-1 送出 ， 则 由 于 无 法 使 用 L1-1， 将 无 法 到 达 svr1。 因 
此 ， 为 了 将 该 分 组 成 功 传送 到 sw2， 必 须要 在 路 由 器 之 间 连 接 LS1-2。 


交换 机 故障 时 的 行为 


通过 事先 准备 的 LS1-2， 即 便 链 路 发 生 故 障 ， 也 可 确保 Svrl 及 svr2 的 运 
作 以 使 通信 维持 正常 。 但 符 交 换 机 发 生 故 障 该 如 何 是 好 呢 ? 以 下 将 探讨 
sw1 发 生 故 障 时 的 情况 。 


在 Swl 发 生 故 障 ， 则 与 链 路 故障 时 一 样 ， 可 通过 驱动 绑 定 确认 sw1 的 
链 路 是 否 可 用 来 进行 判断 。 与 链 路 故障 不 同 的 是 ， 需 要 同时 在 所 有 服务 
项 上 进行 判断 。 当 所 有 服务 器 都 不 使 用 swl 的 链 路 而 只 使 用 sw2 的 链 
路 时 ， 就 能 让 通信 维持 正常 运作 。 

交换 机 间 遭 遇 连 接 故 障 时 的 情况 

最 后 来 探讨 交换 机 与 交换 机 之 间 的 连接 故障 。 在 某 些 驱动 绑 定 模式 下 ， 
即便 链 路 出 现 故 障 ， 交 换 机 间 的 连接 也 可 正常 使 用 ?。 当 然 当 故 障 发 生 
时 也 可 能 造成 通信 阻 断 。 应 对 交换机 之 间 的 连接 LS1-2 的 故障 时 ， 和 服 
务 吉 与 交换机 之 间 的 连接 的 情况 相同 ， 可 以 通过 连接 多 根 网 线 以 实现 郊 


人 人 I、o 




















8 例如 在 balance-tlb 或 balance-alb 模式 的 情况 下 就 会 经 常 使 用 ， 在 active-backup 模式 下 ， 如 果 
0 active 物理 网 卡 与 所 用 的 交换 机 相同 ， 则 也 有 必要 建立 交换 机 与 交换 
沁 之 间 的 连接 。 




















在 服务 器 与 交换 机 之 间 的 连接 尚 可 使 用 驱动 绑 定 的 方式 ， 但 交换 机 与 交 
换 机 之 间 的 连接 方面 ， 虽 然 早先 可 以 使 用 交换 机 广 商 自 有 的 方式 ， 但 目 
前 还 是 使 用 标准 的 IEEE 802.3ad? 方式 比较 好 ， 这 常 被 称 为 “端口 聚 








合 ”(Port Trunking) 及 “ 链 路 聚合 ”(Link Aggregation) 。 


IURL http://www .ieee802.0rg/3/ad/ 


3.3.5 ”增设 交换 机 


在 前 文 图 3.3.1 的 拓扑 结构 中 ， 全 体 服 务 器 可 使 用 的 交换 机 端口 数 实际 
仪 为 一 台 交 换 机 的 端口 量 ， 随 着 服务 器 台数 的 增加 ， 交 换 机 的 端口 数 会 
越 来 越 不 够 用 ， 因 此 需要 进行 扩展 。 关 于 扩展 的 方法 ， 既 可 以 选择 切换 
到 目前 已 有 的 端口 数 富裕 的 交换 机 ， 也 可 以 选择 增设 交换 机 。 切 换 的 情 
况 和 刚才 介绍 的 没什么 不 同 ， 但 知 要 增设 交换 机 ， 鉴 于 整个 拓扑 的 变 
更 ， 为 了 保持 见 余 性 就 需要 满足 更 多 的 条 件 。 对 图 3.3.1 的 拓扑 增设 交 
换 机 并 进行 级 联 连接 (Cascade Connection) 后 ， 所 形成 的 拓扑 结构 如 图 
3.3.2 所 示 。LS1-3 与 LS2-4 的 级 联 连 接 与 LS1-2 一 样 ， 使 用 了 链 路 聚合 
的 方式 实现 了 宛 余 。 

















图 3.3.2 ”增设 交换 机 并 进行 级 联 连接 的 拓扑 结构 

应 用 图 3.3.2 的 拓扑 ， 在 驱动 绑 定 的 物理 网 卡 监控 方式 下 ， 需 要 使 用 
ARP 监控 。 在 MII 监控 下 ， 若 swl 或 sw2 发 生 故 障 ， 则 会 导致 svr3 及 
svr4 的 通信 阻 断 。 以 下 有 具体 说 明 该 问题 的 状况 。 


知 Swl 发 生 故 障 ， 则 sw4 与 sw2 进行 连接 ，sw3 被 孤立 。 这 时 知 svr3 


与 Svrl 进行 通信 ， 因 为 没有 sw3 到 svrl 的 线路 ， 所 以 通信 无 法 实现 。 
各 需 避免 该 问题 ， 在 swl 故障 时 ， 不 仅仅 是 swl 上 连接 的 svrl 及 svr2 
到 sw3 的 链 路 ，svr3 及 svr4 到 sw3 的 链 路 也 需要 被 判断 为 发 生 了 故 

障 。 为 此 ， 在 svr3 及 svr4 上 部 署 物理 网 卡 故 障 监控 方式 一 一 ARP 监 
控 ， 并 将 ARP 的 监控 对 象 指 定 为 svrl 及 svr2 即 可 。 这 种 情况 下 ， 若 
sw1 发 生 故 障 ， 通 过 L3-3 及 L4-3 发 出 的 ARP 请 求 没 有 得 到 应 答 ， 即 可 
判断 出 该 链 路 发 生 了 故障 。 


实现 多 重 元 余 


在 图 3.3.2 中 ， 由 于 sw3 与 sw4 之 间 的 交换 机 没有 连接 ， 因 此 会 发 生 
swl 及 sw2 故障 时 sw3 及 sw4 被 孤立 的 情况 。 为 了 避免 出 现 该 问题 ， 需 
要 像 图 3.3.3 那样 在 sw3 与 sw4 之 间 设 立 一 个 像 LS1-2 那样 的 交换 机 间 
的 连接 LS3-4， 以 设置 一 个 将 sw3 与 sw4 连接 起 来 的 迁 回 线路 ， 这 样 即 
便 不 使 用 驱动 绑 定 的 ARP 监控 ， 也 可 避免 通信 阻 断 的 问题 。 但 如 果 单 
纯 这 么 设置 迁 回 线路 ， 则 会 导致 其 他 问题 的 出 现 。 


请 看 图 3.3.3，sw1 到 sw4 之 间 相 互 连 接 实现 了 环 路 拓扑 。 但 知 在 以 太 
网 中 组 建 该 拓扑 结构 ， 将 会 导致 广播 风暴 〈Broadcast Storm) 1 的 出 
现 。 








0 广播 就 是 指 一 个 数据 帧 或 分 组 被 传输 到 本 地 网 段 ( 由 广播 域 定义 ) 上 的 每 个 节点 。 由 于 网 络 
拓扑 的 设计 和 连接 问题 ， 或 者 其 他 某 种 原因 ， 导 致 广播 在 网 段 内 大 量 复制 、 传 播 数据 帧 ， 让 这 
些 广播 数据 充斥 网 络 无 法 被 处 理 ， 并 占用 大 量 网 络 带宽 ， 致 使 网 络 性 能 下 降 ， 甚 至 彻底 次 痪 。 
这 就 是 广播 风暴 。 一 一 译 者 注 
















































































图 3.3.3 ”连接 sw3 与 sw4 的 迁 回 线路 的 设 定 示例 


如 果 能 够 确保 正常 情况 下 sw3 及 sw4 的 连接 不 走 LS3-4， 只 在 swl 或 
LS1-3 故障 时 使 用 LS3-4， 就 能 够 在 确保 迁 回 线路 正常 的 前 提 不 发 生 广 
播 风 暴 。 为 了 实现 该 拓扑 结构 ， 可 使 用 STP (Spanning Tree 
Protocol) 。 下 节 将 讲解 STP 的 加 强 版 RSTP 的 使 用 方法 。 


3.3.6 RSTP 


RSTP 〈 快 速生 成 树 协议 ，Rapid Spanning Tree Protocol) 1 是 数据 链 路 
层 的 协议 ， 被 用 于 协调 各 个 交换 机 ， 检 测 其 环 路 (Loop) 拓扑 结构 ， 自 
动 屏蔽 不 需要 的 链 路 。RSTP 根据 优先 级 及 链 路 速度 等 设 定 来 决定 屏蔽 
哪些 交换 机 的 链 路 。 

1 快速 生成 树 协议 是 由 三 EE802.1d 定义 的 STP 发 展 而 来 的 。STP 在 环 路 拓扑 结构 发 生变 化 


时 ， 以 50 秒 左右 的 时 间 收 敛 网 络 ， 而 改良 过 的 RSTP 则 可 在 数秒 间 收 敛 网 络 。RSTP 最 先 以 
IEEE 802.1w 为 标准 ， 现 在 的 IEEE 802.1D-2004 中 己 经 废止 了 STP， 开 始 使 用 RSTP。 






























































在 RSTP 中 ， 各 交换 机 通过 相互 交换 BPDU (Bridge Protocol Data 
Unit) 消息 帧 ， 交 换 优 先 级 等 信息 并 监测 故障 。 知 该 BPDU 消息 帧 没有 
人 
到 备用 路 线 。 





下 面 将 简单 介绍 RSTP 的 行为 方式 。 

网 桥 的 优先 顺序 及 根 网 桥 

在 RSTP 所 运作 的 各 网 桥 (Bridge)〉 攻 中， 通过 相互 交换 BPDU 消息 帧 
来 决定 网 桥 的 优先 顺序 。 在 链 路 上 所 有 的 网 桥 中 , “ 根 网 桥 ”(Root 
Bridge) 拥有 最 高 的 优先 级 。 而 其 他 网 桥 的 优先 顺序 则 是 通过 将 从 其 他 
人 
来 决定 的 。 


加 人 人 人 (Switching Hub) 指 的 是 同一 个 东西 。 在 RSTP 的 标准 用 语 中 被 称 为 “网 
桥 ?， 因 此 本 书 中 也 这 么 称呼 。 


@ 根 网 桥 的 网 桥 ID 

全 通 向 根 网 桥 的 路 径 开 销 (Path Cost) 

全 一般 网 桥 的 网 桥 ID 

四 发 送 BPDU 消息 帧 的 网 桥 的 端口 ID 

加 接收 BPDU 消息 帧 的 网 桥 的 端口 ID 

网 桥 ID 是 8 个 字 节 的 数值 ， 其 中 前 两 个 字 节 是 各 网 桥 上 用 户 所 设 定 的 
优先 级 数值 ， 后 六 个 字 节 是 网 桥 使 用 的 MAC 地 址 ， 网 桥 ID 较 小 的 一 
方 优 先 级 较 高 。 

根 网 桥 的 路 径 开销 是 指 到 达 根 网 桥 所 经 由 的 链 路 时 间 ， 根 据 各 个 链 路 所 
设 定 的 链 路 开销 基数 来 评定 。 各 链 路 的 链 路 开销 由 连接 接续 时 间 决 定 。 

路 径 开 销 越 小 说 明 优 先 级 越 高 。 

也 就 是 说 ， 根 网 桥 就 是 优先 级 数值 最 小 的 那个 。 

RSTP 中 端口 的 作用 


RSTP 上 所 有 的 网 桥 在 初始 化 过 程 中 ， 针 对 网 桥 上 的 各 个 端口 ，RSTP 
都 为 其 决定 了 特定 的 作用 。 该 作用 分 为 5 类 。 


。 根 端口 (Root Port) 






































在 网 桥 的 各 个 问 口 中 ， 被 接 入 优先 级 最 高 的 网 桥 的 端口 。 当 SRTP 
在 初始 化 时 进行 收敛 ， 由 于 所 有 网 桥 所 识别 的 根 网 桥 相 同 ， 所 以 根 
端口 就 是 到 达 根 网 桥 的 最 短路 伍 


指定 端口 (Designated Port) 


。 的 网 桥 所 接 入 的 端口 。 将 链 路 对 象 的 网 桥 端 口 蔡 换 为 为 
民 端 口 


替换 端口 (Alternate Port) 


除根 端口 外 ， 在 链 路 中 优先 级 较 高 的 端口 。 该 端口 可 屏 散 除 BRDU 











外 的 消息 帧 ， 在 由 于 一 些 原因 不 能 使 用 根 端 口 的 情况 下 ， 通 第 使 用 
答 换 端口 


备份 端口 (Backup Port) 


如 果 一 个 端口 ( 即 某 个 指定 的 端口 》 收 到 来 自 同 一 个 网 桥 的 BPDU 
消息 帧 ， 且 这 个 BPDU 的 优先 级 更 高 ， 那 么 这 个 端口 将 成 为 备份 端 
口 。 当 两 个 端口 被 一 个 点 到 点 链 路 的 环 路 连 在 一 起 时 ， 或 当 一 个 交 
换 机 存在 两 个 或 两 个 以 上 到 共享 局 域 网 段 的 连接 时 ， 一 个 备份 端口 
才能 存在 。 由 于 RSTP 所 设 定 的 网 桥 在 接收 消息 时 不 能 传送 BPDU 
消息 帧 ， 所 以 在 自身 传送 BPDU 时 ， 需 要 首先 对 没有 配置 RSTP 的 
ee 
六 | /区 \ 小 人 


禁用 端口 (Disabled Port ) 

无 法 接收 BPDU 消息 帧 的 端口 ， 通 常 在 链 路 末尾 将 端口 设 为 该 端口 
RSTP 的 行为 

在 此 将 概括 性 地 讲解 RSTP 的 行为 ， 具 体 请 参考 脚注 中 的 资料 2。 


2 关于 RSTP 的 详情 ， 可 以 访问 下 面 的 链接 查看 IEEE 802.1D-2004 标准 。 
URL http://standards.ieee.org/getieee802/802.1.html 



































在 RSTP (图 3.3.4) 基于 环 路 结构 的 网 络 拓 扑 中 ， 通 过 逻辑 性 地 屏蔽 消 
县 帧 来 解除 环 路 。RSTP 中 生成 了 “ 树 结构 ”"， 其 中 的 “ 树 根 ” 即 为 根 网 


桥 。 在 树 结构 中 ， 通 向 优先 级 最 高 的 节点 的 链 路 (= 根 端口 ) 只 有 一 
个 。 通 音 只 会 接 入 到 根 端口 ， 而 不 会 使 用 其 他 优先 级 较 高 的 网 桥 问 口 ， 
不 过 会 事先 对 该 端口 做 好 标记 以 供 无 法 使 用 根 端口 时 使 用 ( 亚 换 端 
0 3 3 
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RSTP BP .IF 





PP __AP 
py4 | NN 
Bd 平常 不 使 用 ， 仅 在 左边 的 
链 路 故障 时 使 用 


图 3.3.4 RSTP 的 行为 


如 末 网 桥 中 没有 蔡 换 端口 ， 那 么 在 无 法 使 用 根 端口 的 情况 下 ， 将 会 与 低 
优先 级 的 网 桥 交 换 BPDU 消 恩 帧 。 这 古 因为 ， 无 法 使 用 根 端口 意味 着 根 
0 
高 的 缘故 。 





3.3.7 “总结 


使 用 Linux 的 驱动 绑 定 ， 不 仅 实 现 了 服务 喜与 交换 机 之 间 的 链 路 元 余 ， 
还 实现 了 交换 机 的 见 余 。 随 着 所 设置 的 服务 器 的 增多 而 不 得 不 增设 交换 
机 时 ， 知 能 恰当 地 规划 拓扑 结构 ， 通 过 使 用 驱动 绑 定 也 可 确保 元 余 性 。 
0 0 0 0 





部 团 RSTP 后 ， 即 便 不 使 用 驱动 绑 定 也 可 以 实现 交换 机 的 宛 余 ， 这 打破 
了 以 往 需要 在 所 有 设备 上 使 用 驱动 绑 定 才能 实现 交换 机 元 余 的 限制 ， 争 
取 了 未 来 系统 扩展 的 自由 度 。 若 链 路 上 的 服务 器 增加 导致 需要 增设 交换 
机 的 话 ， 可 以 尝试 以 此 为 契机 将 RSTP 技术 应 用 到 这 些 设备 上 。 

















3.4 引入 VLAN 一 一 使 网 络 更 加 灵活 

3.4.1 基于 服务 器 集群 的 高 灵活 性 网 络 

首先 请 考虑 何 为 基于 服务 器 集群 的 高 灵活 性 网 络 ， 具 体 来 讲 就 是 : 
。 容 易 增 加 新 的 服务 器 

。 当 服务 器 发 生 故 障 时 ， 能 立刻 转移 到 备用 机 

。 某 一 特定 功能 的 服务 器 可 作为 其 他 功能 的 服务 器 使 用 


只 要 满足 了 以 上 条 件 ， 残 可 以 说 是 作业 无 瓶 有 席 = 高 灵活 性 的 网 络 。 相 
反 ， 网 络 拓扑 结构 中 知 存 在 瓶颈 ， 无 法 方便 地 进行 上 述 作 业 ， 则 可 认为 
该 网 络 的 灵活 性 较 低 。 


人 硬件 层面 的 人 工 操作 虽然 容易 实现 ， 但 满足 以 上 条 件 的 软件 实现 束 入 微 
有 些 难度 了 。 例 如 只 要 服务 器 在 身边 ， 那 么 更 换 网 线 、 移 动 服务 器 都 不 
成 问题 。 但 提供 Web 服务 的 服务 器 托管 在 数据 中 心 的 情况 下 ， 就 不 能 
每 次 都 让 人 专程 跑 到 托管 现场 的 数据 中 心 进行 配置 。 另 外 在 物理 层面 更 
还 要 小 心 确认 机 柜 内 的 线 统 情 况 ， 否 则 万 一 出 现 问题 是 很 难 


变更 网 络 的 拓扑 等 需要 进行 物理 层面 的 作业 时 ， 可 以 使 用 智能 交换 机 所 
具备 的 VLAN (Virtual LAN) 功能 ， 在 不 进行 物理 作业 的 情况 下 完成 

目标 。 在 本 节 中 ， 将 要 探讨 基于 服务 器 集群 组 建 高 灵活 性 网 络 的 方法 ， 

即使 用 VLAN 的 网 络 拓扑 结构 及 VLAN 服务 器 集群 的 使 用 方式 。 另 外 
还 将 专门 针对 负载 均衡 器 这 种 特殊 的 硬件 结构 讨论 VLAN 的 使 用 方 


本 
3.4.2 引入 VLAN 的 优点 
使 用 VLAN 有 众多 优点 。 在 此 将 探讨 以 下 两 个 主要 














。 使 用 一 台 交 换 机 即 可 实现 分 段 〈Segment) 管理 


~” 能 够 灵活 有 效 地 使 用 交换 机 


使 用 VLAN， 只 用 一 台 交 换 机 就 能 实现 分 段 管 理 。 相 比 不 使 用 
VLAN 的 情况 下 ， 可 更 加 灵活 有 效 地 使 用 交换 机 


只 需 合理 设 定 ， 就 能 控制 数据 帧 所 分 发 的 端口 


0 000 0 0 52 
容 


通过 使 用 VLAN， 不 用 在 物理 层面 更 换 或 修复 LAN 网 线 ， 只 需 通 
过 合理 的 设 定 ， 就 能 控制 数据 帧 所 分 发 的 LAN 网 线 连接 的 端口 。 
因此 无 论 是 哪个 段 连接 的 服务 器 发 生 故 障 ， 只 需 将 LAN 线 缆 接 入 
备用 机 ， 就 能 很 容易 地 修复 该 故障 

下 面 我 们 就 来 详细 看 一 下 实际 的 运行 情况 。 

交换 机 的 有 效 使 用 

在 如 图 3.4.1 那样 的 普通 的 Web 系统 中 ， 存 在 WAN 段 及 内 网 段 两 部 

4 

人 罗 。o 


















{ Standby ) 





| | 


内 网 段 WAN 段 


图 3.4.1 普通 的 Web 系统 


下 面 来 看 WAN 段 ， 即 便 除 交 换 机 以 外 的 端口 在 拓扑 中 占用 了 相当 多 的 
资源 ， 交 换 机 也 最 多 只 能 使 用 四 个 端口 (上层 拓 扑 两 个 ， 路 由 右 两 
个 ) 。 束 算 使 用 八 口 交换 机 ， 也 有 四 个 端口 是 被 浪费 掉 的 。 


服务 在 逐渐 扩展 时 肯定 需要 增加 Web 服务 器 的 数量 ， 若 内 网 段 的 交换 
机 没有 存在 空闲 端口 ， 即 便 增 加 一 两 台 Web 服务 占 ， 也 需要 相应 地 增 
设 交 换 机 。 但 此 时 WAN 段 的 端口 数 又 稍 显 充 榕 ， 知 能 在 内 网 段 的 交换 
机 上 使 用 这 些 空闲 端口 ， 则 就 没 必要 增设 新 的 交换 机 了 。 


当然 ， 奢 直接 将 外 部 网 络 与 内 部 网 络 接 入 到 同一 台 交 换 机 上 ， 束 会 造成 
外 网 也 能 直接 访问 内 网 的 风险 。 因 此 不 能 只 退 求 弹性 化 ， 还 要 考虑 到 相 
应 的 安全 问题 。 


通过 在 以 上 拓扑 结构 中 使 用 VLAN， 即 可 在 确保 安全 的 同时 ， 灵 活 使 用 
各 个 交换 机 的 亲口 。 


故障 服务 器 的 恢复 机 制 ... 灵 活 使 用 一 台 备 用 机 


在 此 假设 数据 中 心中 茶 人 台 服 务 占 发 生 了 故障 ， 让 我 们 来 考虑 如 何 恢复 这 
台 服 务 占 。 简 蛙 来 说 ， 如 果 数 据 中 心 已 经 准备 好 了 一 台 恢 复 用 的 备用 
机 ， 那 么 就 需 进 行 以 下 步 又 : 


。 将 故障 服务 器 的 设置 迁移 到 备用 机 
。 接 入 备用 机 以 取代 故障 服务 器 


为 了 缩短 恢复 故障 所 花费 的 时 间 ， 事 移 将 相关 服务 器 设 置 迁 移 到 备用 机 
上 或 许 是 个 不 错 的 方法 。 但 由 此 惑 需要 事先 将 Web 服务 器 、 数 据 库 服 
务 吉 等 每 个 生产 环境 中 的 系统 设置 都 迁移 到 备用 机 上 ， 当 工作 中 的 服务 
句 多 达 上 百 台 时 ， 将 需要 非常 硕 大 的 系统 规模 ， 因 此 现实 中 该 方案 无 法 
实施 。 

没有 发 生 故 障 时 ， 疝 未 使 用 的 备用 机 产生 的 费用 开销 也 很 大 ， 因 此 需要 
尽 可 能 地 减少 备用 机 的 数量 。 在 包含 网 关 或 Linux 内 核 的 负载 均衡 器 

人 

儿 使 用 。 


使 用 VLAN， 仅 用 一 全 备用 机 就 能 实现 恢复 











接 下 来 将 以 上 述 仅 用 一 台 备 用 机 来 保护 整个 系统 的 拓扑 结构 为 例 ， 探 讨 
人 
人 


14 除 这 些 方法 外 ， 还 有 其 他 可 供 选 择 的 方案 。 但 由 于 那些 方案 并 不 对 应 网 络 层 的 问题 ， 因 此 在 
本 节 中 不 做 探讨 。 


人 
































。 将 目标 服务 器 的 系统 结构 同步 ， 并 在 局 动 后 局 动人 必要 的 服务 ， 通 
过 赋予 指定 的 IP 地 址 进行 切换 


。 网 络 启动 系统 拓扑 中 的 这 些 服务 器 ， 启 动 时 需要 对 服务 器 的 参数 
进行 合理 设置 上 





有 关 网 络 启动 的 详情 请 参考 5.5 节 。 



































以 下 将 探讨 上 述 @ 中 接 入 备用 机 的 问题 ， 具 体 如 何 实现 呢 ? 可 以 在 备 
用 机 上 安装 多 块 网 卡 ， 以 便 可 以 连接 到 任意 网 络 上 。 但 这 样 做 就 需要 交 
换 机 的 所 有 段 都 接 入 到 代替 机 上 ， 也 就 是 说 ， 从 物理 层面 进行 人 工 配置 
以 及 网 线 的 妥善 处 理 等 是 很 难 实现 的 。 


为 了 应 对 该 问题 ， 可 以 不 将 备用 机 设 为 特别 的 拓扑 结构 ， 无 论 备 用 机 连 
接 哪个 交换 机 的 哪个 端口 ， 只 要 能 让 备用 机 接 入 就 可 以 了 。 硅 能 实现 这 
从 
以 的 。 


有 关 网 线 的 连接 操作 ， 可 以 灵活 使 用 交换 机 及 系统 中 的 VLAN 功能 。 
通过 运用 VLAN， 束 可 以 缓解 必须 人 工 进行 物理 层面 的 操作 的 限制 ， 在 
非 故 障 时 增设 服务 需 也 变 得 更 加 容易 ， 使 系统 逐渐 晋升 为 大 规模 高 并 发 
的 拓扑 结构 成 为 了 可 能 。 


通过 实施 上 文中 描述 的 操作 ， 束 满足 了 本 市 开头 所 介绍 的 高 灵活 性 的 网 
络 需 求 。 下 文 将 结合 该 用 途 对 VLAN 进行 详细 讲解 。 











3.4.3 VLAN 的 基础 知识 


VLAN 并 非 是 物理 层面 的 结构 ， 而 是 通过 网 络 设备 及 服务 器 的 设 定 

来 “多 辑 性 ?地 分 割 拓扑 结构 的 扩 术 。 有 具体 来 说 ， 广 播 域 (Roadcast 
Domain) 的 分 割 从 理论 上 讲 是 完全 可 能 的 。 通 过 使 用 VLAN， 即 使 同 
一 合 交换 机 连接 多 个 段 的 终端 ， 根 据 设 定 的 不 同 ， 也 可 以 将 广播 域 进行 
逻辑 性 分 割 ， 从 而 只 将 数据 帧 转发 《Forward) 到 适当 的 端口 。 


上 文中 已 经 针对 使 用 VLAN 逻辑 性 地 分 割 网 络 进 行 了 说 明 ， 但 仍 需 考 
虑 需要 接 入 到 不 同 网 络 的 两 台 交 换 机 是 如 何 通 过 一 台 交 换 机 进行 管理 
的 。 例 如 像 图 3.4.2 的 @ 那样 ， 在 不 同 的 段 一 一 集群 1 及 集群 2 所 分 发 
的 系统 中 ， 通 常 需 要 在 每 个 集群 中 都 准备 交换 机 。 但 若 恰 当地 使 用 
VLAN 进行 设 定 ， 即 可 实现 如 图 3.4.2 的 @ 那样 仅 用 一 台 交 换 机 ， 就 能 
够 分 割 出 多 个 集群 。 


全 两 台 交 换 机 的 两 个 集群 
: 集群 | ! 














图 3.4.2 网 络 物理 层面 的 分 割 及 逻辑 层面 的 分 割 (VLAN) 


在 不 使 用 VLAN 的 情况 下 ， 夺 一 个 交换 机 接 入 了 不 同 的 段 ， 该 交换 机 
也 可 针对 这 些 不 同 的 段 分 别 进行 通信 。 但 在 尚未 设 定 VLAN 的 交换 机 
中 ， 多 播 (Multicast) 、 广 播 帧 〈Broadcast Frames) 或 地 址 不 详 的 未 知 
单 播 帧 《Unknown Unicast Frame) 就 会 被 转发 到 室 无 关系 的 段 上 。 


在 此 本 来 就 没有 关系 的 段 的 广播 帧 等 也 会 被 转 友 到 各 个 端口 ， 从 而 造成 
坚 无 意义 的 带宽 浪费 。 根 据 情况 ， 在 本 来 束 无 法 进行 通信 的 段 上 友 送 通 
信人 信息， 会 带 来 盗 听 等 危险 ， 因 此 还 需要 同时 留意 安全 问题 才 行 。 














3.4.4 ”VLAN 的 种 类 
VLAN 的 实现 大 体 可 分 为 两 种 方法 。 


其 中 之 一 是 手动 将 集群 分 配 到 每 个 端口 上 ， 即 “静态 VLAN” (Static 
VLAN) 。 使 用 该 方法 时 ， 知 端口 所 连接 的 终端 集群 发 生 改 变 ， 则 需要 
手动 变更 路 由 器 上 的 相关 设置 。 


还 有 一 种 是 根据 所 连接 的 设备 等 ， 动 态 分 配 集群 的 “动态 
VLAN”(Dynamic VLAN) 。 使 用 该 方法 时 ， 即 便 所 连接 的 集群 终端 需 
人 
改 概 。 


实现 VLAN 技术 的 方法 多 种 多 样 ， 根 据 使 用 目的 的 不 同 使 用 方法 也 会 
不 同 。 其 实 近 些 年 来 在 公司 内 部 的 LAN 上 ， 通 常会 根据 用 户 或 MAC 
地 址 等 信息 制定 相关 的 规则 ， 以 分 配合 适 的 VLAN 集群 来 确保 安全 。 
在 公司 内 部 LAN 中 ， 由 于 使 用 者 (= 职员 ) 的 调动 会 造成 拓扑 频繁 地 
发 生 改 变 ， 而 通过 VLAN 的 动态 分 配 ， 可 以 让 使 用 者 获得 便利 的 同时 
也 满足 系统 安全 的 需要 ， 因 此 该 方法 被 广泛 使 用 。 


但 由 于 使 用 服务 器 集群 不 用 频繁 地 改变 拓扑 结构 ， 所 以 无 需 考 虑 有 关 此 
人 
结构 的 合理 性 。 


在 VLAN 中 ， 还 存在 上 述 一 些 广 商 为 目 己 的 便 件 定制 的 特殊 种 类 ， 这 
些 特 殊 种 类 上 文中 没有 介绍 到 。 下 面 将 以 服务 器 集群 中 常用 的 VLAN 
知识 为 准 ， 对 “端口 VLAN” 及 “标记 VLAN” 进 行 介绍 。 














端口 VLAN 


端口 VLAN (Port VLAN) 是 为 交换 机 的 各 个 端口 分 配 VLAN ID 的 方 
法 。 一 个 端口 对 应 一 个 VLAN ID， 在 集群 上 的 端口 同样 具备 相应 的 识 
别 ID。 在 图 3.4.3 中 ， 端 口 1、5、6 为 VLAN1 (VLAN ID 1 所 分 配 的 
集群 ) ， 端 口 2、3、4 为 VLAN2 (VLAN ID 2 所 分 配 的 集群 ) 。 在 该 
拓扑 结构 下 ， 同 一 VLAN 之 间 上 自然 能 实现 通信 ， 但 VLAN1-VLAN2 之 
间 则 无 法 实现 通信 。 
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图 3.4.3 ”端口 VLAN 


使 用 端口 VLAN 的 优点 是 ， 连 接 到 该 交换 机 的 客户 站 不 需要 特别 的 设 
置 ， 此 外 因为 是 针对 每 个 端口 的 VLAN 设置 ， 可 以 在 一 台 交 换 机 上 完 
成 ， 因 此 结构 较为 简单 。 但 使 用 端口 VLAN 也 存在 缺点 ， 比 如 无 法 在 
台 交 换 机 进行 集群 化 分 组 。 使 用 端口 VLAN， 可 以 在 多 台 交 换 机 间 
进行 集群 操作 ， 但 结果 会 导致 拓扑 结构 变 得 更 加 复杂 ， 交 换 机 间 的 流量 
也 会 被 这 些 坚 无 关系 端口 消耗 等 ， 因 此 不 建议 实施 。 在 端口 VLAN 的 
A 
J 


标记 VLAN 








标记 VLAN (Tagged VLAN) 是 指 ， 将 包含 VLAN ID 的 VLAN 识别 信 
县 (以 下 简称 VLAN 标签 ) 标记 到 以 太 网 帜 (Ethernet Frame) 中 ， 以 
作为 识别 各 VLAN 集群 的 方式 。 该 VLAN 标签 是 在 客户 端 或 交换 机 发 
出 以 太 网 帧 的 时 机 被 插入 的 。 在 VLAN 集群 的 管理 上 ， 与 以 端口 为 单 
位 进行 集群 操作 的 端口 VLAN 不 同 ， 其 是 以 所 传输 的 数据 帧 为 单位 进 
行 集群 化 分 组 的 。 因 此 就 没有 了 端口 VLAN 中 “一 个 端口 对 应 一 个 

VLAN ID” 的 限制 ， 使 得 单位 端口 也 可 针对 多 个 VLAN 进行 操作 。 





通过 该 方式 就 能 简单 地 构成 如 图 3.4.4 那样 的 横 跨 多 个 交换 机 的 VLAN 
集群 拓扑 结构 。 





以 太 网 帧 


mememeee -有 





ee 


图 3.4.4 标记 VLAN 标签 


至 此 好 像 一 直 在 说 标记 VLAN 相对 端口 VLAN 的 优势 ， 但 其 实 附 有 
VLAN 标签 的 以 太 网 帧 (被 标记 的 以 太 网 帧 〉 与 一 般 的 以 太 网 帧 相 比 ， 
报 文 首部 不 同 了 。 因 此 从 不 能 识别 VLAN 标签 的 终端 或 同样 不 能 识别 
VLAN 标签 的 网 络 设备 看 来 ， 这 是 不 正确 的 以 太 网 帧 。 也 就 是 说 ， 如 果 
将 附带 VLAN 标签 的 以 太 网 帧 转发 到 这 些 设备 ， 结 果 可 能 会 导致 将 本 
来 有 效 的 数据 帧 舍弃 了 ， 因 此 需要 确保 终端 或 网 络 设备 能 够 正确 识别 这 
些 附带 有 VLAN 标签 的 以 太 网 帧 。 


3.4.5 ”在 服务 器 集群 中 的 使 用 

接 下 来 以 3.4.2 节 中 介绍 的 服务 器 故障 的 应 对 为 前 提 ， 讨 论 使 用 各 
VLAN 拉 术 来 组 建 拓扑 结构 。 以 下 将 考虑 包含 负载 均衡 器 在 内 的 基于 
Linux 核心 的 服务 器 系统 拓扑 结构 。 


不 使 用 VLAN 的 拓扑 结构 











首先 来 考虑 不 使 用 VLAN 的 拓扑 结构 。 如 图 3.4.5 所 示 ， 在 实现 整个 元 
余 的 拓扑 结构 中 ， 需 要 面 对 下 面 儿 个 问题 : 


。 WAN 滑 的 交换 机 只 有 4 个 端口 可 用 (其 余 的 站 口 被 浪费 ) 


。 准备 的 备用 机 没有 接 入 到 WAN 端的 交换 机 时 ， 不 能 作为 负载 均 
衡 硕 的 备用 机 使 用 


。 由 于 负载 均衡 名 的 存在 造成 硬件 结构 较为 特殊 (需要 4 块 网 卡 ) 
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图 3.4.5 ”整个 元 余 的 拓扑 结构 


为 了 改善 以 上 问题 ， 可 以 考虑 如 图 3.4.6 那样 将 所 有 连接 都 接 入 到 交换 
机 上 的 拓扑 结构 。 
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图 3.4.6 接 入 同一 台 交 换 机 的 全 元 余 拓扑 结构 


但 该 方式 存在 一 个 重大 的 问题 。 如 前 所 述 ， 多 播 /广播 帧 会 被 转发 到 所 
有 的 端口 上 。 也 就 是 说 ， 该 结构 会 将 Web 服务 器 段 所 发 生 的 多 播 / 广 播 
帧 传送 到 WAN 段 的 上 层 路 由 器 。 相 反 WAN 段 也 同样 会 接 到 该 数据 
帧 。 因 此 无 论 是 从 流量 上 来 说 还 是 从 安全 方面 来 说 部 是 不 理想 的 。 也 就 
是 说 如 果 不 解 决 这 个 问题 ， 图 3.4.5 的 拓扑 结构 就 依然 存在 缺陷 。 





使 用 端口 VLAN 的 拓扑 结构 
使 用 端口 VLAN 的 情况 下 会 是 什么 样 的 拓扑 结构 呢 ? 


请 看 图 3.4.7 的 使 用 端口 VLAN 的 结构 。 同 一 个 交换 机 内 有 两 个 VLAN 
集群 (VLAN ID1、VLAN ID2) ， 分 别 为 WAN 段 及 内 部 段 所 使 用 ， 
此 就 能 更 有 效 地 利用 交换 机 的 端口 了 。 


VLAN ID1 







VLAN ID2 


图 3.4.7 使 用 端口 VLAN 的 拓扑 结构 示例 1 


虽然 通过 改变 连接 备用 机 端口 的 VLAN 集群 ， 即 可 切换 到 WAN 段 ， 但 
由 于 负载 均衡 需 是 拥有 4 块 网 卡 的 特殊 硬件 结构 ， 因 此 考虑 到 负载 均衡 
名 可 能 会 及 生 故 障 ， 为 了 能 够 将 备用 机 当 作 负载 均衡 器 使 用 ， 需 要 在 备 
用 机 上 也 安装 4 块 网 卡 。 此 外 ， 还 必须 考虑 到 如 图 3.4.8 的 多 个 交换 机 
结构 中 交换 机 之 间 的 连接 问题 。 由 于 该 问题 的 存在 ， 无 法 单纯 使 用 
VLAN 构建 出 理想 的 拓扑 结构 ， 实 乃 遗 憾 。 






















a | VLAN ID1 
| ”交换 机 汗 一 J; 交换 机 一 一 
EF 网 VLAN ID2 
轩 | 图 画 一 一 
上 层 路 由 
, LVS LVS 
l | 
ET = ET 





wr 
图 3.4.8 ”使 用 端口 VLAN 的 拓扑 结构 示例 2 
使 用 VLAN 标签 的 拓扑 结构 


终于 轮 到 探讨 使 用 VLAN 标签 的 情况 了 。 


针对 使 用 端口 VLAN 的 拓扑 结构 所 存在 的 两 点 问题 来 考虑 改善 方案 ， 
可 得 到 如 图 3.4.9 的 结构 。 首 先 将 连接 到 负载 均衡 器 端口 的 VLAN ID1 
与 VLAN ID2 两 个 集群 进行 必要 的 配置 以 实现 可 操作 ， 另 外 准备 两 块 负 
载 均 衡器 的 网 卡 ， 这 方面 与 备用 机 及 其 他 服务 器 一 样 ， 像 这 样 组 建 的 
话 ， 问 题 束 得 到 了 解决 。 


在 本 结构 下 ， 集 群 中 所 接收 的 数据 帧 均 包 含 VLAN 标签 。 如 前 所 述 ， 

大 终端 无 法 识别 包含 VLAN 标签 的 以 太 网 帧 ， 那 么 该 数据 帧 就 很 有 可 
能 不 被 处 理 而 直接 被 忽略 。 但 实际 上 ， 终 端 连接 存在 限制 的 标记 

WA 与 基本 上 可 连接 任何 终端 的 端口 VLAN 这 两 种 方式 是 可 以 混合 

使 用 的 。 也 就 是 说 并 不 需要 为 所 有 的 数据 帧 都 附带 VLAN 标签 ， 仅 在 

端口 处 理 较 为 困难 时 ， 也 就 是 必须 要 处 理 多 个 VLAN 的 情况 

下 ， 通 过 标记 VLAN 标签 进行 处 理 即 可 。 
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图 3.4.9 ”使 用 VLAN 标签 的 拓扑 结构 


在 这 种 情况 下 ， 在 肯 先 将 连接 到 上 层 路 由 器 的 端口 分 配 到 VLAN ID1 的 
端口 上 ， 剩 下 的 端口 即 VLAN ID2 也 就 只 能 设 定 为 端口 VLAN 了 。 田 
外 ， 将 多 个 VLAN 集群 的 数据 帧 交换 所 必 经 的 端口 (负载 均衡 器 的 端 
口 ) ， 设 定 为 “有 ”VLAN 标签 ， 即 将 负载 均衡 器 的 端口 VLAN ID1 设 定 


为 “有 ”VLAN 标签 ， 反之， 将 VLAN ID1 设 定 为 端口 VLAN， 并 将 
VLAN ID2 设 定 为 “有 ”VLAN 标签 也 是 可 以 的 。 另 外 ， 通 过 事先 设 
定 “ 当 VLAN 使 用 频繁 时 ， 不 使 用 标记 VLAN 标签 的 形式 ， 而 使 用 端口 
VLAN” 的 规则 ， 可 以 更 简单 地 避免 使 用 时 的 混乱 。 


通过 以 上 设 定 ， 能 够 处 理 VLAN 标签 的 终端 就 只 有 负载 均衡 器 了 ， 所 
以 在 此 需要 特别 对 负载 均衡 器 进行 说 明 。 因 为 Linux 支持 标记 VLAN， 
因此 不 需要 准备 特别 的 硬件 ， 只 需 进行 配置 就 可 以 了 。 在 Linux 上 使 用 
标记 VLAN 的 情况 下 ， 需 要 内 核 支 持 及 相应 的 配置 工具 。 要 确保 内 核 
支持 ， 只 需 在 编译 时 设 定 “CONFIG_VLAN_8621Q=y”， 就 能 开启 该 功 
能 ;另外 配置 工具 方面 可 以 使 用 vconfig 命 令 ， 使 用 该 命令 可 建立 
VLAN 接口 ， 当 然 该 工具 也 能 撤销 该 接口 的 建立 。 


在 本 拓扑 结构 中 的 负载 均衡 器 上 执行 vconfig， 束 建立 了 VLAN ID1 的 
新 端口 eth0.1。 


lvs@1:~# aptitude install vlan 
lvs@1:~# vconfig add eth6 1 


该 拓扑 结构 对 不 使 用 VLAN 或 只 使 用 端口 VLAN 时 的 问题 做 出 了 相当 
程度 的 改善 。 


通过 使 用 标记 VLAN， 能 够 更 容易 地 搭建 出 类 似 的 物理 结构 ， 让 整个 系 
统 具备 相当 大 程度 的 伸缩 性 。 但 在 这 里 需要 注意 一 个 问题 ， 即 使 用 标记 
VLAN 的 情况 下 馆 辑 结构 往往 会 变 得 相对 复杂 。 而 且 与 使 用 端口 VLAN 
时 不 同 ， 可 能 还 需要 增加 对 服务 器 的 设 定 。 因 此 建议 将 端口 VLAN 作 
为 基本 的 结构 ， 只 在 必要 的 时 候 采 用 标记 VLAN 的 设 定 。 


3.4.6 ”即便 在 复杂 的 VLAN 结构 下 ， 也 需要 让 物理 层面 的 设 
备 结构 尽 可 能 简易 化 


上 文 的 一 系列 说 明 痢 在 阐述 在 服务 絮 集 群 中 使 用 VLAN 的 优 后 。 


在 实际 引入 VLAN 时 最 重要 的 是 ， 无 论 使 用 哪 种 VLAN 方法 ， 都 应 该 

确保 拓扑 结构 相对 人 简易。 在 耗费 精力 引入 VLAN 技术 后 ， 如 果 因 结构 

I 间 ， 甚 至 引起 了 别 的 故障 等 ， 那 就 太 得 不 偿 
了 。 























而 且 虽 说 要 注重 逻辑 方面 的 结构 ， 但 也 不 能 忽视 物理 层面 的 结构 。 正 如 
在 存在 横路 多 个 交换 机 的 段 的 情况 下 ， 该 段 的 数据 需要 在 这 些 交 换 机 之 
间 传 送 ， 如 果 此 类 段 有 很 多 ， 就 可 能 存在 带宽 瓶 贷 (图 3.4.10) 。 为 了 
导 免 出 现 该 问题 ， 在 初期 规划 拓扑 结构 时 就 应 该 对 物理 络 构 组 态 及 逻辑 
本 
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图 3.4.10 交换 机 之 间 出 现 
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市 宽 瓶 宽 的 可 能 性 


第 4 草 性 能 优化 、 调 整 一 
Linux 单 个 主机 、Apache、MYySQL 


4.1 基于 Linux 单个 主机 的 负载 评估 
4.1.1 充分 发 挥 单个 主机 的 性 能 


提起 “负载 分 流 ”， 大 多 数 情况 下 人 们 都 会 联想 到 将 “负载 光 分 流 ? 到 多 从 
服务 器 进行 处 理 的 机 制 ， 前 三 章 所 叙述 的 也 是 这 种 情况 。 


但 首先 需要 明确 的 是 ， 将 原本 一 全 服务 器 就 能 负载 处 理 的 内 容 ， 分 流 到 
十 几 台 服务 器 ， 是 否 显得 有 些 本 末 倒 置 呢 ? 不 首先 想 办 法 充分 友 挥 单个 
服务 器 的 性 能 ， 而 跳 过 需要 的 优化 步骤 分 流 到 多 台 服 务 器 进行 负载 均 
衡 ， 这 样 做 意义 束 不 大 了 。 所 以 本 间 的 首要 问题 ， 就 是 针对 构成 该 网 络 
的 “单个 主机 ”做 重点 讲解 。 


清楚 何 为 性 能 、 何 为 负载 


为 了 充分 发 挥 单个 主机 的 性 能 ， 需 要 首先 了 解 “什么 是 性 能 ”>。 为 此 就 需 
要 掌握 服务 器 资源 的 使 用 状况 ， 因 此 接 下 来 将 首先 对 相应 的 监控 方式 进 
行 说 明 。 在 讲解 监控 方式 的 同时 ， 也 将 顺便 指出 Linux 操作 系统 中 相关 
对 象 的 运行 机 制 。 所 谓 知 其 负载 必 先 知 其 操作 系统 之 机 制 。 而 如 果 不 知 
道 操 作 系 统 的 运作 行为 ， 就 难以 诊断 出 系统 当前 的 状态 。 


参考 Linux 的 内 核 源 码 (Kernel Source) ， 就 能 具体 明白 “负载 * 的 定义 
了 。 昌 说 通过 监控 可 以 得 知 状态 信息 ， 但 不 了 解 监控 的 实质 售 义 就 无 法 
进行 考察 衡量 。 例 如 需要 在 多 任务 处 理 〈Multitasking) 的 运行 原理 中 明 
白 进程 状态 和 负载 之 间 的 关系 。Web 应 用 程序 的 负载 分 发 通常 都 是 “分 
流 或 减轻 破 盘 VO” 的 工作 。 不 同 操作 系统 中 IO 的 优化 策略 也 有 所 不 

同 。 操 作 系 统 为 了 减轻 IO 设立 了 缓存 等 机 制 ， 充 分 利用 系统 中 的 绥 存 
是 降低 系统 IO 的 诀 穿 。 


如 果 知 道 操 作 系统 的 运行 原理 和 人 负载 的 监控 方式 ， 原 本 只 能 治标 ， 现 在 
也 能 从 根本 上 解决 了 。 大 操作 系统 出 现 瓶 贷 ， 系 统 出 现 了 性 能 问题 ， 也 














可 以 按照 基本 货 略 查 明 其 原因 。 下 面 我 们 来 看 一 下 有 具体 方法 。 


针对 单一 主机 实施 优化 策略 意味 着 需要 确认 在 操作 系统 上 运行 的 中 间 
件 。 虽 说 只 要 操作 系统 以 理想 状态 运行 ， 应 用 软件 基本 上 都 能 发 挥 出 相 
应 性 能 。 但 世事 难 料 ， 服 务 器 不 能 保证 100% 不 出 问题 。 所 以 接 下 来 我 
们 也 将 了 解 一 下 Web 服务 器 和 数据 库 服务 器 的 优化 操作 ， 这 是 Web 程 
序 + 数 据 库 软件 运作 的 核心 。 


本 章 是 以 Linux 2.6 版 内 核 的 操作 系统 为 基础 来 介绍 的 。 但 由 于 近 几 年 
多 任务 处 理 的 操作 系统 也 基本 上 都 以 类 似 的 原理 运作 ， 因 此 即使 是 其 他 
版 本 的 内 核 或 操作 系统 ， 本 章 的 介绍 也 能 适用 。 

4.1.2 ” 别 腾 断 ， 请 监控 

发 挥 单 个 主机 的 性 能 需要 正确 掌握 服务 器 资源 的 使 用 情况 。 也 束 是 说 ， 
需要 监控 服务 器 的 负载 究竟 到 了 什么 样 的 程度 ， 因 此 这 一 监控 工作 对 降 
低 单 个 服务 器 的 负载 也 是 非常 重要 的 。 

在 程序 员 之 间 有 一 名 很 有 名 的 格言 : 

别 腾 断 ， 请 监控 

负载 分 流 的 情况 也 不 例外 。 

因为 Apache 和 MySQL 等 应 用 软件 都 运行 于 操作 系统 上 ， 上 所 以 监控 负 
载 情 况 束 意味 着 要 监控 操作 系统 。 知 对 操作 系统 都 不 了 解 ， 何 谈 负 载 分 
流 ? 操作 系统 (此 处 为 Linux 内 核 ) 可 以 查看 负载 所 需 的 全 部 信息 。 

在 Linux 中 使 用 ps、top、sar 等 工具 。 这 些 工具 都 是 Linux 命令 行 工 


具 ， 可 以 据 此 检查 并 监控 Linux 内 核 内 部 的 各 种 统计 信息 。 例 如 ， 运 
行 top 命 令 后 ， 终 端 如 图 4.1.1 所 示 。 








top - 19:56:21 up 156 days, 4:38, 1 user, load average: 0.70, 60.66, 0.59 
Tasks: 164 total, 2 running，162 sleeping, 0 stopped, 0 zombie 
Cpu(s): 21.8%us, 0.6%sy, 08.6%ni, 77.2%id, 06.6%wa, 0.1%hi, 6.3X%si， 6.0| 


Mem: 4628676Kk total, 2331866k used, 1696816k free, 158476k buffers 
Swap: 2848276k total, 9284k used, 2838992k free， 425664k cached 





PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
18481 apache 17 © 394m 154m 4228 R 166 3.9 1:23.56 httpd 


19199 apache 16 6 396m 153m 4328 S 26 3.9 0:41.59 httpd 
18474 apache 15 6 366m 122m 4364 S 4 3.1 1:12.26 httpd 
18471 apache 15 © 371m 133m 4232 S 2 3.4 1:13.31 httpd 
19325 apache 15 6 343m 165m 4346 S 2 2.7 6:35.16 httpd 
1 root 15 6 163604 80 48 S 0 0.0 4:23.65 init 
2 root RT 0 0 0 8 S 0 6.6 2:46.25 migration/6 
3 root 34 19 0 0 8 5S 0 6.6 6:66.38 ksoftirqd/6 
< 以 下 省 略 > 





图 4.1.1 top 的 输出 示例 


top 命令 是 表示 系统 瞬间 状况 的 快照 信息 。 该 工具 所 输出 的 信息 会 随 着 
时 间 流 逝 刷 新 内 容 ， 因 此 非常 便于 观察 系统 负载 的 趋势 。 

例如 ， 使 用 top 工 具 能 够 查阅 系统 的 CPU 使 用 紊 和 内 存 的 使 用 状况 等 数 
值 。 通 过 从 这 些 数值 判断 ， 虽 然 能 清楚 地 确认 系统 的 负载 状况 ， 但 是 这 
些 数值 涉及 的 项 目 及 类 型 很 多 ， 完 竟 如 何 了 解 这 些 数值 的 意义 呢 ? 为 此 


就 需要 清楚 “什么 是 负载 "。 


在 详细 介绍 “什么 是 负载 ?之 前 ， 我 们 和 来 看 一 下 如 何 确认 生产 环境 中 发 
生 的 瓶颈 。 


4.1.3 ”确认 瓶颈 的 基本 流程 
要 想 清 楚 了 解 生产 环境 中 所 发 生 的 瓶 锋 的 情况 ， 请 注意 以 下 几 点 : 
e。 观 罕 load average 平均 负载 ) 
。 观察 CPU、LO 是 否 存在 瓶颈 
接 下 来 将 详细 讲解 各 个 基本 流程 。 
观察 load average 
首先 ， 作 为 重要 的 负载 评估 指标 ， 需 要 通过 top 和 uptime 等 命令 碍 看 
load average。load average 可 以 衡量 整个 系统 的 负载 情况 。 虽 说 仅 通过 


load average 还 不 能 判断 出 系统 出 现 瓶 贷 的 原因 在 哪里 ， 但 可 从 load 
average 着 手 进 行 系统 瓶 贷 的 调查 。 














有 时 在 load average 较 低 时 ， 系 统 的 吞吐 量 有 可 能 还 是 达 不 到 要 求 。 此 
时 就 需要 查看 软件 的 配置 是 否 不 合理 ， 网 络 、 远 程 主机 方面 是 否 存在 问 














观察 CPU、LO 是 否 存在 瓶颈 

当 load average 较 高 时 ， 需 要 确认 CPU 和 IO 哪个 存在 问题 。 通 过 使 
用 sar 或 vmstat 等 工具 ， 可 以 确认 一 段 时 间 内 的 CPU 使 用 率 和 LO 等 
待 的 情况 。 确 认 后 即 可 进入 下 一 个 阶段 。 

当 CPU 负载 较 高 时 

CPU 负载 较 高 时 ， 可 以 按照 下 面 的 流程 来 排查 问题 所 在 : 


。 通过 top 和 sar 等 工具 来 判断 是 用 户 程序 (Web 应 用 程序 ) 的 原 
因 ， 还 是 系统 程序 〈 操 作 系 统 ) 的 原因 


一 边 通过 ps 命令 来 查看 进程 状态 以 及 CPU 使 用 时 间 等 数据 ， 一 
边 锁 定 出 现 问题 的 进程 

如 果 要 进一步 了 解 所 锁定 的 进程 的 具体 行为 ， 可 以 使 用 strace 命 
令 进 行 跟踪 〈Trace) ， 也 可 以 使 用 oprofile 工具 在 计数 器 中 断 处 
理 入 口 处 建立 监测 点 ， 以 缩小 监控 瓶颈 的 范 

造成 CPU 负载 过 重 的 原因 通常 是 : 


。 傍 盘 及 内 存 占用 疝 未 超标 的 情况 下 《〈 即 VO 不 存在 瓶颈 ) ， 系 统 
的 load average 指标 依旧 很 高 


。 程序 的 逻辑 部 分 负载 超过 CPU 的 承受 能 力 且 不 受 控制 
如 果 是 前 者 且 系 统 吞 吐 性 能 也 出 现 了 问题 ， 可 以 尝试 通过 增设 服务 器 、 
改善 程序 逻辑 和 算法 来 解决 问题 。 后 者 的 情况 下 要 注意 程序 没有 预料 到 
的 流程 ， 以 避免 出 现 程序 失控 的 状况 。 
当 LO 负载 较 高 时 


IO 负载 较 高 基本 上 有 两 种 情况 : 一 种 是 来 自 程 序 本 身 的 磁盘 读 写 较为 
频繁 ， 造 成 该 程序 输入 输出 负载 比较 高 ， 男 一 种 是 因 使 用 了 Linux 














SWAP 交换 区 而 造成 磁盘 的 频繁 访问 。 通 过 使 用 sar 及 vmstat 命令 确 
认 SWAP 交换 区 的 状况 ， 即 可 分 辨 出 到 底 是 哪 一 种 情况 。 


如 果 确 认 后 发 现 发 生 了 频繁 访问 SWAP 交换 区 的 情况 ， 可 通过 以 下 几 
个 步骤 来 得 出 问题 所 在 : 


。 通过 ps 命令 确认 是 否 有 特定 进程 消耗 了 大 量 内 存 


。 由 于 程序 不 受 控制 而 造成 内 存 占用 过 大 时 ， 可 以 修改 相应 的 程序 
逻辑 来 解决 问题 


。 系统 内 存 不 足 时 增加 内 存 。 无 法 增加 内 存 的 情况 下 需要 考虑 进行 
负载 分 流 
如 果 没 有 频繁 访问 SWAP 交换 区 ， 且 磁盘 上 依然 频 或 发 生 输 入 输出 ， 
该 情况 下 可 以 认为 是 缓存 所 需 的 内 存 不 足 。 可 以 根据 服务 器 装载 的 磁盘 
容量 以 及 可 以 扩充 的 内 存 容量 ， 分 以 下 几 种 情况 来 考虑 : 
。 通过 扩展 内 存 缓存 以 实现 扩展 缓存 容量 时 ， 优 先 扩充 内 存 容量 


。 无 法 通过 扩充 内 存 容量 来 解决 问题 时 ， 需 要 考虑 数据 分 流 和 增设 
缓存 服务 器 等 方案 。 当 然 也 可 以 考虑 改善 程序 以 减轻 1/O 频率 


以 上 是 寻找 友 生 负载 的 原因 的 基本 方法 。 在 此 基础 上 ， 接 下 来 就 让 我 们 
一 起 来 了 解 下 “为 什么 发 生 瓶 颈 后 ， 逐 步 缩 小 造成 系统 瓶颈 问题 的 原因 
的 范围 是 完全 可 以 实现 的 ”。 

4.1.4 何 为 负载 

究竟 负载 指 的 是 什么 呢 ? 针对 负载 ， 下 文 将 从 以 下 几 点 着 手 介 绍 。 
两 种 负载 

一 般 来 说 ， 负 载 可 以 分 为 两 大 部 分 : 


。 CPU 负载 





























。1O 负载 








例如 ， 假 设 有 一 个 进行 大 规模 科学 计算 的 程序 ， 虽 然 该 程序 不 会 频繁 地 
从 磁盘 输入 输出 ， 但 是 处 理 完 成 需要 相当 长 的 时 间 。 因 为 该 程序 主要 被 
用 来 做 计算 、 逻 辑 判 断 等 处 理 ， 所 以 程序 的 处 理 速 度 主 要 依赖 于 CPU 
的 计算 速度 。 此 类 CPU 负载 的 程序 称 为 “计算 密集 型 程序 ”(CPU 
Bound) 。 


还 有 另 一 类 程序 ， 主 要 从 磁盘 保存 的 大 量 数据 中 搜索 找 出 任意 文件 。 这 
个 搜索 程序 的 处 理 速 度 并 不 依赖 于 CPU， 而 是 依赖 于 磁盘 的 读 取 速度 ， 
也 就 是 输入 输出 (Input/Output，1/O) 。 磁 盘 越 快 ， 检 索 花 费 的 时 间 就 
越 短 。 此 类 IO 负载 的 程序 ， 称 为 "IO 密集 型 程序 ”(IO bound) 。 


一 般 来 说 ，AP 服务 器 所 做 的 处 理 是 将 从 数据 库 服务 器 获得 的 数据 进行 
加 工 后 交 给 客户 端 。 在 此 过 程 中 ， 该 AP 服务 器 应 该 不 会 发 生 大 规模 的 
WO， 因 此 通常 可 认为 AP 服务 需 是 计算 密集 型 的 服务 句 。 


男 一 方面 ， 数 据 库 服务 器 是 构成 Web 应 用 程序 的 另 一 系统 要 素 ， 其 主 
要 工作 是 从 磁盘 检索 数据 ， 特 别 是 当 数 据 规模 较 大 时 ， 比 起 CPU 的 计 
算 时 间 ，IO 速度 更 能 影响 数据 库 服务 器 的 快慢 ， 因 此 数据 库 服 务 需 属 
于 VO 密集 型 服务 器 。 妇 外 ， 即 使 是 相同 的 服务 器 ， 根 据 造 成 负载 的 原 
因 不 同 ， 其 特性 也 会 发 生 很 大 变化 。 


多 任务 操作 系统 与 负载 


Windows 和 Linux 等 近 几 年 的 多 任务 操作 系统 能 够 同时 处 理 几 个 不 同名 
称 的 任务 。 但 是 在 同时 运行 多 个 任务 的 过 程 中 ，CPU 和 磁盘 这 些 有 限 的 
人 硬件 资源 就 需要 被 这 些 任务 程序 共 译 。 即 在 很 短 的 时 间 间 隔 内 ， 需 要 一 
边 在 这 些 任务 之 间 进 行 切 换 一 边 进行 处 理 ， 这 就 是 多 任务 (图 
2 

















时 间 


图 4.1.2 多 任务 
运行 中 的 任务 较 少 的 情况 下 ， 系 统 并 不 等 待 此 类 切换 动作 的 发 生 。 但 是 


当 任务 增加 时 ， 例 如 任务 A 正在 CPU 上 执行 计算 ， 接 下 来 如 果 任 务 B 
和 C 也 想 进 行 计算 ， 那 么 就 需要 等 待 CPU 空 亲 。 也 就 是 说 ， 即 使 想 运 


行 处 理 某 任务 ， 也 要 等 到 轮 到 它 时 才能 运行 ， 此 类 等 竺 状态 就 表现 为 程 
序 运行 延迟 。 


top 的 输出 中 包含 "load average” 的 数字 。 


load average: 6.76，6.66，6.59 


load average 从 左边 起 依次 是 在 过 去 1 分钟 、5 分 钟 、15 分 钟 内 ， 单 位 
时 间 的 等 竺 任务 数 ， 也 就 是 表示 平均 有 多 少 任 务 正 处 于 等 待 状态 。 在 
load average 较 高 的 情况 下 ， 就 说 明 等 竺 运行 的 任务 较 多 ， 因 此 轮 到 该 
任务 运行 的 等 待 时 间 就 会 出 现 较 大 延迟 ， 即 反映 了 此 时 负载 较 高 。 


但 是 ，load average 的 数字 只 是 表示 等 符 的 任务 数 ， 仅 根据 load average 
并 不 能 判断 具体 是 CPU 负载 高 还 是 IO 负载 高 。 因 此 最 终 要 判断 服务 
器 资源 具体 哪里 遭遇 了 瓶颈 ， 还 需要 再 做 一 些 细致 的 调查 。 


具体 看 哪个 数值 能 判断 系统 的 瓶颈 呢 ? 各 个 数值 分 别 反 应 了 系统 
哪里 的 状态 呢 


load average 表示 的 “等 待 任务 ?具体 等 竺 的 是 什么 呢 


即使 找到 了 瓶颈 ， 也 需要 深入 了 解 具 体 是 哪个 进程 负载 的 原因 所 
导致 的 租 颁 


搞 清 负载 的 本 来 面目 = 知晓 内 核 的 行为 


所 谓 “ 负 载 ?， 其 实 也 只 不 过 是 用 一 个 词 表 示 了 因 多 任务 的 服务 需 资 源 争 
夺 而 产生 的 等 待 时 间 。 为 了 搞 清 负载 的 本 来 面目 ， 需 要 明白 系统 在 什么 
情况 下 会 进行 “等 竺 任务 ”的 动作 ， 也 就 是 需要 明日 Linux 内 核 的 运行 。 


Linux 内 核 中 的 “进程 调度 器 ”(Process Scheduler) 是 支配 任务 等 待 的 程 
序 。 在 多 任务 的 支配 中 ， 进 程 调度 器 负责 决定 任务 运行 的 优先 级 ， 以 及 
让 任务 等 待 或 使 之 重新 开始 等 内 核 中 的 核心 工作 。 通 过 进程 调度 器 查看 
进程 的 概要 ， 从 而 束 可 以 掌握 该 进程 所 对 应 的 负载 情况 。 














进程 调度 和 进程 状态 


“进程 ”(Process) 是 程序 在 系统 中 运行 的 基本 单位 。 进 程 与 表示 内 核 中 
的 运行 的 单位 “任务 ”(Task) 在 狭义 上 虽然 有 所 区 别 ， 但 这 里 把 两 者 理 
解 为 一 个 意思 也 不 妨碍 对 下 文 的 理解 。 


例如 ， 在 运行 1s 命令 的 时 候 ，1s 的 二 进 制 文件 的 机 器 语言 命令 在 内 存 
中 被 展 开 ， 紧 接着 CPU 在 内 存 中 访问 (Fetch) 命令 并 执行 。 为 了 完成 
该 命令 的 执行 ， 需 要 了 解 1s 命 令 使 用 的 各 个 内 存 区 域 的 地 址 、 运 行 中 的 
命令 位 置 〈 程 序 计 数 器 ，Program Counter) 、1s 命 令 打 开 的 文件 一 览 等 
各 种 信息 。 通 过 将 这 些 信 息 归 纳 整理 ， 汇 总 出 正在 运行 的 程序 ， 可 以 更 
方便 地 和 弄 清楚 状况 。 因 此 ， 此 处 所 指 的 进程 ， 即 汇总 了 “程序 命 

令 ” 和 “运行 时 所 需 信息 ”的 对 象 。 


在 Linux 内 核 中 ， 每 一 个 进程 都 存在 一 个 名 为 * 进 程 描述 符 ”(Process 
Descriptor) 的 管理 表 。 该 进程 描述 符 中 保存 有 各 种 执行 时 的 信息 1。 


1 进程 描述 符 在 Linux 内 核 编码 中 采用 task_struct 结构 。 有 具体 在 内 核 源 代码 的 
include/linux/sched.h 中 有 其 定义 ， 有 兴趣 的 读者 可 以 研究 一 下 。 









































在 Linux 内 核 中 ， 各 进程 描述 符 会 被 调整 为 按照 优先 级 降序 排列 ， 以 按 
合理 的 顺序 运行 进程 (任务 )。 这 个 调整 即 为 “进程 调度 右 * 的 工作 (图 
4.1.3) 。 





进程 调度 器 


图 4.1.3 进程 调度 器 
调度 器 划分 并 管理 进程 的 状态 。 例 如 ， 
。 等 待 分 配 CPU 资源 的 状态 


。 等 待 磁盘 输 入 输出 完毕 的 状态 





进程 描述 符 中 有 保存 此 状态 的 区 域 (task_struct 结构 体 中 的 state 成 
员 ) 。 各 个 状态 的 区 别 如 表 4.1.1 所 示 。 


表 4.1.1 进程 描述 符 的 状态 的 区 别 


TASK_RUNNING 运行 状态 。 CPU 空 间 ， 任 何 时 候 都 可 运行 


可 中 断 的 等 待 状态 。 主 要 为 恢复 时 间 无 法 预测 的 长 时 
TASK_INTERRUPTIBLE 间 等 待 状态 。 例 如 系统 睡眠 或 来 自 于 用 户 的 输入 的 等 
待 等 























不 可 中 断 的 等 待 状态 。 主 要 为 短 时 间 恢复 时 的 等 待 状 
TASK_UNINTERRUPTIBLE | 太 例如 磁盘 输入 输出 的 等 待 


TGN o 








响应 暂停 信号 而 运行 中 断 的 状态 。 直 到 恢复 
CResume) 前 都 不 会 被 调度 

僵 死 状态 。 虽 然 子 进程 已 经 终止 〈exit) ， 但 父 进程 
TASK_ZOMBIE (进程 控制 块 ) 尚未 执行 wait0， 因 此 该 进程 的 资源 没 

有 被 系统 释放 


调度 器 在 管理 各 个 进程 的 运行 状态 的 同时 ， 还 会 根据 情况 变更 状态 以 控 
制 任务 的 执行 顺序 。 


进程 状态 变迁 的 具体 例子 



































下 面 来 看 个 具体 的 例子 。 该 例子 中 有 三 个 进程 由 、 四 、 旬 同时 运行 。 首 
先 ， 每 个 进程 在 生成 后 都 是 可 运行 状态 ， 也 就 是 从 TASK_RUNNING 
的 状态 开始 。 这 里 请 注意 TASK_RUNNING 是 “可 运行 的 等 待 状态 ”， 而 
不 是 “现在 正在 运行 ”的 状态 。 


。 进程 外: TASK_RUNNING 








。 进程 B@ TASK_RUNNING 
。 进程 中 : TASK_RUNNING 


TASK_RUNNING 的 三 个 进程 立即 成 为 调度 对 象 。 此 时 ， 假 设 调度 右 给 
进程 外， TASK_RUNNING 分 配 了 CPU 的 运行 权限 。 


。 进程 外， TASK_RUNNING 正在 运行 
。 进 程 四 ， TASK_RUNNING 
。 进程 口 ，TASK_RUNNING 


由 于 在 Linux 内 核 中 无 法 区 别 正在 运行 的 状态 和 可 运行 的 等 待 状态 。 为 
了 直观 起 见 ， 这 里 将 该 状态 称 为 “TASK_RUNNING 正在 运行 ”。 


因为 分 配 了 CPU， 所 以 进程 外 开始 处 理 。 进 程 @ 和 G@ 则 在 此 等 待 进程 外 
迁 出 CPU。 


假设 外 进行 若干 计算 之 后 ， 需 要 从 磁盘 读 取 数 据 。 那 么 在 包 发 出 读 取 磁 
盘 数据 的 请 求 之 后 ， 到 请 求 的 数据 到 达 之 前 ， 将 不 进行 任何 工作 。 此 状 
况 称 为 "外 因 等 待 VO 操作 结束 而 被 阻塞 ”。 在 IO 完成 处 理 前 ， 包 一 直 

处 于 等 待 状态 (TASK_UNINTERRUPTIBLE) ， 并 不 使 用 CPU。 于 是 

的 优先 级 计算 结果 ， 将 CPU 运行 权限 交 予 优先 级 较 
高 的 一 方 。 


这 里 假设 四 的 优先 级 高 于 @。 


。 进程 外: TASK_UNINTERRUPTIBLE 














。 进程 龟 ，TASK_RUNNING 正在 运行 


。 进程 口 ，TASK_RUNNING 
四 刚 开 始 运行 ， 就 需要 等 竺 用户 的 键盘 输入 。 于 是 四 进入 等 竺 用户 输入 
状态 ， 同 样 被 阻塞 。 结 果 就 变 成 名 和 四 都 要 等 待 输出 ， 运 行 口 。 这 时 包 
和 四 都 是 等 待 状态 ， 但 是 等 待 磁盘 输入 输出 和 等 待 键盘 输入 为 不 同 的 状 
态 。 等 竺 键盘 输入 是 无 期 限 长 时 间 的 事件 等 符 
CTASK_INTERRUPTIBLE ) ， 而 读 盘 则 是 必须 短 时 间 内 完成 的 事件 等 
待 ， 这 是 两 种 状态 有 所 区 别 的 原因 。 


各 进程 的 状态 如 下 所 示 。 


。 进程 @: TASK_UNINTERRUPTIBLE (等 待 磁 盘 输 入 输出 /不 可 
中 断 ) 


。 进程 龟 ，TASK_INTERRUPTIBLE (等 待 键盘 输入 /可 中 断 ) 

。 进程 口 ，TASK_RUNNING 正在 运行 
这 次 假设 在 进程 @ 运 行 的 过 程 中 ， 进 程 包 请 求 的 数据 从 磁盘 到 达 了 缓冲 
装置 。 紧 接着 硬盘 对 内 核发 出 中 断 信号 ， 内 核 知 道 磁盘 读 取 完 成 ， 将 进 
程 外 恢复 为 可 运行 状态 。 


。 进程 外 : TASK_RUNNING 





。 进程 @@: TASK_INTERRUPTIBLE 

。 进程 DO: TASK_RUNNING 正在 运行 
此 后 进程 @ 也 会 变 为 某 种 等 待 状态 。 例 如 : 

。 CPU 的 占用 时 间 超 出 了 上 限 

。 任务 结 

。 进入 IO 等 待 


一 县 满足 这 些 条 件 ， 调 度 器 就 可 以 完成 从 进程 曲 到 进程 外 的 进程 状态 的 
切换 。 





进程 状态 迁移 汇总 


以 上 进程 的 状态 变迁 如 图 4.1.4 所 示 。 像 这 样 进程 被 定义 为 几 个 状态 以 
作 区 分 ， 进 程 在 各 状态 间 迁 移 的 同时 会 进行 必要 的 计算 或 者 改变 响应 
IO 的 行为 。 进 程 的 状态 变迁 对 深入 理解 系统 负载 有 很 大 的 意义 。 








正在 运行 
TASK_RUNNING 


启动 /重启 ff 和 


_ 等 待 事件 
生成 运行 等 竺 唤醒 TASK_INTERRUPTIBLE 
gk TASK_RUNNING 或 者 


TASK_UNINTERRUPTIBLE 


图 4.1.4 进程 的 状态 迁移 
换算 到 load average 的 等 待 状态 
进程 A~C 在 发 生 状 态 迁 移 的 过 程 中 ， 出 现 了 四 种 状态 : 
。 TASK_RUNNING 正在 运行 
。 TASK_RUNNING 
。 TASK_INTERRUPTIBLE 
。 TASK_UNINTERRUPTIBLE 
load average 是 表示 “等 竺 进程 的 平均 数 ” 的 数字 。 四 个 状态 中 ， 
除 “TASK_RUNNING 正在 运行 ?以 外 ， 其 余 三 个 都 是 等 候 状 态 。 而 这 三 
个 进程 的 等 待 状态 都 会 被 加 权 换 算 为 相应 的 load average 吗 ? 


事实 证 明 ， 只 有 TASK_RUNNING 和 TASK_UNINTERRUPTIBLE 会 
被 换算 为 load average，TASK_INTERRUPTIBLE 则 不 能 被 换算 。 也 就 
日 AN 

是 说 : 


。 即便 需要 即刻 使 用 CPU， 也 还 需 等 竺 其 他 进程 用 完 CPU 
。 即便 需要 继续 处 理 ， 也 必须 等 竺 磁盘 输入 输出 完成 才能 进行 
以 上 两 种 情况 的 进程 才 会 表现 为 load average 的 数值 。 


两 种 状态 的 共同 点 是 “虽然 需要 即刻 运行 处 理 ， 但 是 无 论 如 何 都 必须 等 
候 ”。 另 一 方面 ， 即 使 同样 是 在 等 待 ， 键 盘 输入 等 竺 或 睡眠 等 待 与 程序 
明示 的 等 竺 也 不 相同 ， 它 们 不 包含 在 load average 换算 的 范围 中 。 另 
外 ， 来 自 远程 主机 的 数据 ， 例 如 来 信 等 待 ， 由 于 无 从 得 知 对 方 何 时 会 发 
来 数据 ， 因 此 也 不 能 换算 为 load average。 


load average 是 表示 系统 负载 的 指标 ， 可 见 以 上 两 点 的 等 竺 状态 与 系统 
负载 是 挂 钓 的 。 


load average 表述 的 负载 意义 


硬件 会 以 特定 的 周期 间隔 癌 CPU 发 出 中 断 信 号 。 因 为 是 按 特定 的 间隔 
发 出 的 信号 ， 因 此 被 称 作 * 计 时 器 中 断 ”(CTimer Interrupt) 。 例 如 在 
CentOS 5 中 ， 中 断 间隔 被 设置 为 4ms (毫秒 ) 。 每 次 中 断 时 ，CPU 都 
将 推进 时 间 ， 计 算 该 时 间 间 隔 内 运行 的 进程 所 占用 的 CPU 情况 等 ， 进 
行 与 时 间 有 关 的 处 理 。 由 此 在 每 个 计时 器 中 断 的 间隔 中 ， 计 算出 该 时 间 
间隔 内 load average 的 数值 。 


在 内 核 的 计时 器 中 断 中 ， 可 以 预先 算出 处 于 可 运行 状态 的 任务 和 处 于 
IO 等 待 状态 的 任务 的 数量 。 通 过 用 该 数字 除 以 单位 时 间 ， 就 可 以 算出 
相应 的 load average。 
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到 目前 为 止 ,，“load average 显示 的 负载 的 本 来 面目 ? 承 显 而 易 见 了 。 总 
之 ，load average 所 摘 述 的 负载 束 是 : 


需要 运行 处 理 但 又 必须 等 待 队 列 前 的 进程 处 理 完 成 的 进程 个 数 。 
具体 来 说 就 是 : 
。 等 待 被 授予 CPU 运行 权限 的 进程 





。 等 待 磁盘 UVO 完成 的 进程 


这 个 确实 与 直观 感 党 相符。 在 很 占用 CPU 资源 的 处 理 中 ， 例 如 在 进行 
动画 编码 等 的 过 程 中 ， 虽 然 想 进行 其 他 相同 类 型 的 处 理 ， 结 果 系 统 反应 
却 变 得 很 慢 ， 还 有 从 磁盘 读 取 大 量 数据 时 ， 系 统 的 反应 同样 也 会 变 得 很 
慢 。 se 无 论 有 多 少 等 待 键盘 输入 操作 的 进程 ， 也 不 会 让 系统 
啊 应 变 得 很 慢 。 


专栏 
用 工具 观察 进程 状态 .……. ps 











虽然 TASK_RUNNING 和 TASK _INTERRUPTIBLE 等 在 内 核 中 的 处 

理 状态 存在 区 别 ， 但 是 可 以 从 用 户 进程 查看 此 状态 。 具 体 可 以 通过 

和 top 等 命令 将 该 信息 以 一 定 的 格式 显示 出 来 。 以 下 是 ps 命令 
输出 。 


% ps auxw | egrep (STAT|httpd) 
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND 
root 10861 .6 1.7 295256 69026 ， Ss Feb67 


apache 18711 7.2 3.1 366744 125176 ? R 66 :13 
apache 18827 8.1 3.8 396636 154696 ? 9 66:18 
apache 18898 9.6 3.9 466188 158492 ? 66:22 686:42 /usr/sbi 





请 注意 STAT 列 。 根 据 man ps 的 结果 ,“S” 是 “Interruptible Sleep”， 相 
当 于 TASK_INTERRUPTIBLE。“R” 是 “Running or 

Runnable (onrunqueue) ”x*1, 相 当 于 TASK_RUNNINGX?。 可 见 ps 
的 STAT 项 和 内 核 的 进程 状态 是 对 应 的 关系 。 


※1 runqueue 即 运行 队列 ， 处 于 可 运行 状态 的 进程 在 内 核 中 排列 的 队列 。 




















※2 “Ss” 的 s 表 示 控 制 进程 (Session Leader) 。 


R(Run):TASK_RUNNING 


S(Sleep):TASK_INTERRUPTIBLE 


D(Disk Sleep):TASK_UNINTERRUPTIBLE 


Z(Zombie):TASK ZOMBIE 








其 他 项 目 所 表示 的 意义 请 参照 ps 的 参考 手册 。 


4.1.5 计算 load average 的 内 核 编码 


为 了 让 大 家 对 load average 的 计算 方式 能 了 解 得 更 加 具体 ， 接 下 来 我 们 
来 研究 一 下 它 在 内 核 中 的 代码 。 这 里 参照 Linux 内 核 2.6.23 的 编码 。 


计算 load average 的 函数 为 kernei/timer.c 的 calc-load0。 每 次 硬件 产生 
计时 器 中 断 时 都 会 调用 该 函数 。 在 CentOS 5 中 ， 计 时 右 中 断 的 周期 是 
4ms， 因 此 每 4ms 就 会 调用 一 次 calc-load()。 








unsigned long avenrun[3]; 
EXPORT_SYMBOL (avenrun); 


static inline void calc load(unsigned long ticks) 
{ 
unsigned long active tasks; /* fixed-point */ 
static int count = LOAD_ FREQ; 


count -= ticks; 
if (unlikely(count < 6)) { 
active tasks = count active tasks(); 
do { 
CALC_ LOAD(avenrun[6], EXP 1, active tasks); 
CALC_ LOAD(avenrun[1], EXP 5, active tasks); 
CALC_ LOAD(avenrun[2], EXP_15, active tasks); 
count += LOAD_FREQ 
} while (count «< ©); 





可 以 看 出 ， 在 calc-load() 函数 中 ， 全 局 数组 averun 中 存储 了 
count_active_tasks() 函数 的 计算 结果 。count_active_tasksO0， 顾 名 思 
义 ， 就 是 统计 该 时 间 系 统 内 存在 的 “Active 的 任务 (进程 》 数 ”"。 但 这 
个 “Active 的 任务 ?究竟 是 什么 呢 ? 如 果 再 试 着 追踪 处 理 流 程 ， 就 会 发 现 
是 kernel/sched.c 的 nr_active( 函数 。 





unsigned long nr_active(void) 


{ 


unsigned long i, running = 06, uninterruptible = 6; 


for_each online cpu(i) { 


Punning += cpu_rq(i)->nr_running; 
uninterruptible += cpu_rq(i)->nr_uninterruptible; 


} 


if (unlikely((long)uninterruptible < 6)) 
uninterruptible = 0; 


return running + uninterruptible; 





for_each_online_cpu() 枚 举 了 cpuid《〈 即 枚 举 了 系统 当前 使 用 所 有 CPU 
核心 的 ID 值 ) 。 还 有 ，cpu_rq0 是 取得 CPU 相关 运行 队列 “的 宏 。 
此 在 这 里 可 以 清楚 地 按 顺 序 查 看 各 CPU 的 运行 队列 。 在 运行 队列 中 ， 


?存储 等 待 状态 的 任务 描述 符 的 队列 。 





e。 cpu_rq(i)->nr_running 
e。 cpu_rq(D)->nr_uninterruptible 
获取 以 上 两 个 数值 并 进行 计算 ， 然 后 返回 结果 。 从 名 字 就 能 看 出 ， 二 者 


分 别 相 当 于 各 运行 队列 内 的 TASK_RUNNING 和 
TASK_UNINTERRUPTIBLE 的 进程 数 。 


这 个 nr_active0 所 返回 的 数值 会 被 传递 给 前 述 的 calc_load0 函数 ， 并 以 
1 分 钟 、5 分 钟 、15 分 钟 为 单位 来 进行 计算 ， 计 算得 出 的 值 将 存储 在 
averun 数组 中 ， 因 此 averun 数组 中 所 存储 的 数值 就 是 load average 的 原 
如 果 用 户 进程 发 出 了 读 取 proc 文件 系统 的 /procloadavsg 的 请 求 ， 内 核 
> 的 averun 数组 加 以 整理 并 发 送 至 用 户 空 间 。 让 我 们 先 来 
确认 一 下 输出 。 


% cat /proc/loadavg 
0.61 0.65 6.66 4/46 16511 


top 或 uptime 命 令 从 该 输出 中 取得 load average， 并 将 其 显示 出 来 。 


在 本 市 中 ， 我 们 了 解 了 在 系统 源码 中 ， 每 次 计时 絮 中 断 都 会 进行 load 





average 的 计算 ， 即 代码 将 通过 统计 TASK_RUNNING 及 
TASK_UNINTERRUPTIBLE 状态 的 等 待 任务 数 来 计算 出 load average。 


4.1.6 ”通过 load average 判断 CPU 使 用 率 和 LO 等 待 时 间 


通过 观察 load average 具体 的 计算 方法 ， 束 可 以 明白 该 数值 表示 了 CPU 
负载 和 IO 负载 。 例 如 系统 负 和 全 过 重 的 情况 下 ， 大 多 数 也 是 因为 CPU 
或 VO 出 现 了 问题 。 因 此 ， 查 看 load average 后 发 现 需 要 有 所 应 对 时 ， 
接 下 来 就 要 调查 CPU 或 IO 哪里 有 问题 。 


使 用 sar 来 查看 CPU 使 用 率 及 LO 等 待 时 间 

通常 在 系统 中 ，CPU 使 用 率 和 LO 等 候 时 间 (IO 等 待 率 ) 等 指标 都 是 不 
断 在 变化 的 ， 可 以 通过 sar 命令 来 确认 这 些 指 标 。 正 如 sar (System 
Activity Reporter) 的 全 称 所 表述 的 那样 ， 该 工具 常 被 用 于 浏览 系统 状况 
报告 。 该 工具 包含 在 sysstat 软件 包 内 。 


图 4.1.5 是 计算 密集 型 服务 器 系统 中 sar 的 运行 结果 。 














2.6.19.2-163.hatena.centos5 (jubuichi.hatena.ne.jp) 82/68/68 


CPU % %nice %system  %iowait %steal 
all 
all 
all 
all 
all 





图 4.1.5 sar 的 运行 实例 (计算 密集 型 服务 嚣 系统) 


详细 的 用 法 我 们 稍 后 再 做 讲述 。sar 优 于 其 他 工具 的 一 点 是 ， 可 以 随 着 
时 间 的 流逝 来 浏览 并 比较 负载 指标 。 例 如 在 上 述 00:00~00:40 时 间 段 
中 ，CPU 使 用 率 的 变迁 就 可 以 通过 sar 来 确认 。“%user” 是 用 户 程 序 的 
CPU 使 用 率 ，“%system” 是 系统 所 占用 的 CPU 使 用 率 。 当 load average 
较 高 且 这 些 CPU 使 用 率 的 数值 也 同样 较 高 的 情况 下 ， 就 可 以 断定 造成 
等 待 进程 负载 的 原因 是 CPU 资源 不 足 。 


CPU 的 用 户 模 式 和 系统 模式 


CPU 的 用 户 模式 和 系统 模式 分 别 是 : 
。 用 户 模式 : 用 户 程序 运作 时 的 CPU 模式 ， 也 就 是 一 般 的 应 用 软件 
运作 模式 
。 系统 模式 : 系统 程序 即 内 核 运作 时 的 CPU 模式 
用 户 及 系统 占用 CPU 资源 是 分 开 来 表述 的 。 


通常 在 应 用 程序 的 CPU 负载 较为 严峻 的 情况 下 ， 用 户 模 式 的 CPU 使 用 
率 会 变 高 。 也 就 是 说 ， 用 户 应 用 程序 处 于 正在 进行 计算 的 状态 。 忆 一 方 
面 ， 例 如 运行 大 量 进 程 和 线程 时 ， 进 程 及 线程 的 切换 次 数 较 多 ， 或 者 系 
统 调用 较为 频繁 时 ， 系 统 模式 的 CPU 使 用 率 会 变局 。 











用 户 模式 及 系统 模式 的 CPU 占用 行为 的 不 同 如 图 4.1.6 所 示 。 





图 4.1.6 CPU 时 间 的 不 同 

正如 本 章 开头 叙述 的 那样 ， 多 任务 的 实现 方式 就 是 内 核 在 短 时 间 内 切换 
进程 。 也 就 是 说 ， 在 切换 进程 时 ， 内 核 必定 处 于 运作 状态 。 这 时 如 果 系 
统 发 生 调用 ， 运 行 状 态 束 会 从 用 户 程序 变迁 到 内 核 。 

IO 密集 型 服务 器 的 sar 

接 下 来 是 IO 密集 型 服务 器 中 的 sar 的 结果 (图 4.1.7) 。 











Linux 2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 62/68/68 


60:60:01 CPU %user %nice %system %iowait %steal %idle 


60:16:61 all 0.14 0.60 17.22 22.88 0.60 59.76 


600:20:061 all 0.15 0.60 16.60 22.84 0.60 61.61 
60:360:061 all 0.16 0.60 19.66 18.99 0.60 61.19 
60060:40:061 all 0.106 0.60 8.50 13 .69 0.60 78.30 
Average: all 0.14 0.60 15.34 19.45 0.60 65.067 





图 4.1.7 sar 的 运行 实例 (LO 密集 型 服务 器 ) 





“%iowait” 是 IO 等 待 率 。load average 较 高 且 该 值 较 高 时 ， 可 以 判断 是 


由 于 IO 瓶颈 所 造成 的 负载 状况 。 


查 明 了 具体 是 IO 的 原因 还 是 CPU 的 原因 后 ， 就 可 以 通过 其 他 指标 来 
进行 更 加 详细 的 调查 ， 例 如 参考 内 存 使 用 率 和 SWAP 交换 区 的 发 生 情 


像 这 样 ， 在 辨别 瓶颈 时 ， 从 load average 等 总 括 性 的 数据 着 手 ， 人 参考 
CPU 使 用 率 和 LO 等 竺 时间 等 具体 的 数字 ， 从 而 自 顶 回 下 地 快速 排查 各 
进程 状态 是 非常 有 效 的 策略 。 而 县 体 以 怎样 的 顺序 执行 这 些 方针 呢 ? 当 
然 需要 结合 当下 内 核 的 行为 ， 以 及 此 类 负载 数值 的 程序 逻辑 上 的 计算 方 
法 来 决定 。 还 是 那 句 话 ， 要 想 查 看 负载 ， 必 须 清楚 内 核 运 作 的 情况 。 


4.1.7 多 核 CPU 与 CPU 使 用 率 


近来 的 基于 x86 的 CPU 正在 向 多 核心 (Multi-Core) 结构 发 展 。 在 多 核 
CPU 中 ， 即 便 只 有 单个 物理 的 CPU， 在 系统 看 来 也 好 像 安 装 了 多 个 
CPU 一 样 。Linux 内 核 中 ，CPU 使 用 率 统计 了 各 个 CPU 核心 的 详情 。 
下 面 我 们 束 来 确认 一 下 。 


利用 sar 工具 的 -P 选项 。 图 4.1.8 是 安装 了 四 核 CPU 的 〈Quad-Core 
CPU) 服务 器 中 sar 的 结果 。 

















% sar -P ALL | head -13 


Linux 2.6.19.2-163.hatena.centos5 (jubuichi.hatena.ne.jp) 82/68/68 
60:60:061 CPU %user %nice %system %iowait  %steal %idle 
80:1060:061 all 59.84 60.60 1.54 0.00 0.60 38 .62 
60:10:061 0 68 .16 60.60 3.71 0.00 0.60 28 .19 
6060:10:061 1 52.82 60.60 0.81 0.00 60.60 46.37 
60:10:061 2 53.52 60.60 0.76 0.00 0.60 45 .72 
80:10:061 3 64.94 60.60 0.88 0.00 0.60 34.18 


60:20:02 all 48.72 0.60 1.48 0.60 0.60 49.80 
60:20:02 0 62.81 0.60 3.59 0.61 0.60 33.59 
60:20:02 1 39.11 0.60 0.81 0.61 0.60 60.67 
60:20:02 2 38 .17 8.60 0.71 0.60 0.60 61.12 
60:20:02 3 54.79 0.60 0.82 0.60 0.60 44.39 





图 4.1.8 sar -P 的 运行 实例 (计算 密集 型 服务 器 ， 安 装 了 多 核心 的 
CPU) 


各 CPU (各 核心 ) 都 附带 有 CPU ID 号 码 ， 在 输出 的 CPU 信息 中 可 以 
通过 此 号 码 进 行 确 认 ， 以 得 到 每 个 CPU 的 使 用 率 情 况 。 


这 是 计算 密集 型 服务 器 的 情况 ， 下 面 再 来 看 看 在 IO 密集 型 服务 器 中 的 
结果 。 首 先 不 使 用 -P 选 项 ， 只 查看 统计 结果 (图 4.1.9) 。 


| head 
2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 62/68/68 


61 CPU %user %nice Xsystem Xiowait %steal 
all 0.14 60.60 17.22 22.88 60.60 
all 0.15 60.60 16.60 22.84 0.00 
all 6.16 60.60 19.66 18.99 60.60 





图 4.1.9 ”sar 的 运行 实例 (VO 密集 型 的 服务 器 ， 安 装 了 多 核心 的 
CPU ) 


可 以 看 出 IO 等 待 (%iowait 栏 ) 平均 为 20% 左右 。 该 服务 器 使 用 了 双 
核心 的 CPU (Dual Core CPU) ， 可 以 通过 sar -P 查 看 各 CPU 及 整个 
CPU 的 IO 等 待 情况 〈 图 4.1.10) 。 


% sar -P ALL | head 
2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 62/68/68 


CPU i %system  %iowait %steal 
all 17: 22. 0 . 


34 . 45 . 
6 . 6 . 
16 . 22. 
31. 45. 
6 . 6 . 





[L 


图 4.1.10 sar -P 的 运行 实例 (LO 密集 型 的 服务 器 ， 安 装 了 多 核心 的 
CPU ) 


结果 有 点 儿 意 外 。1/O 等 待 大 体 上 只 是 在 CPU 0 发生 着 ，CPU 1 则 几乎 
没有 工作 。 


在 安装 了 多 核心 的 CPU 且 只 存在 一 个 磁盘 时 ， 单 位 核心 的 CPU 负载 可 
以 分 流 到 其 他 的 CPU 核心 ， 但 VO 负载 却 不 能 进行 分 流 ， 因 此 sar 的 
输出 结果 就 会 出 现 偏差 。 虽 然 IO 等 待 平 均 为 20% 左右 ， 并 不 是 太 高 ， 
但 可 能 会 造成 整个 CPU 的 IO 等 待 数 值 产 生 明 显 偏 差 。 因 此 在 安装 多 
核 处 理 器 的 环境 中 ， 根 据 情 况 还 需要 查看 CPU 中 每 个 核心 的 使 用 率 情 
况 。 


4.1.8 ”如 何 计算 CPU 的 使 用 率 

与 load average 相同 ， 了 解 CPU 使 用 率 的 具体 计算 方法 ， 对 分 析 sar 和 
top 命令 的 输出 结果 是 很 有 帮助 的 。 此 外 也 能 更 清楚 地 了 解 所 输出 的 多 
核 CPU 占用 率 各 项 数值 的 意义 。 


得 出 CPU 使 用 率 的 步骤 与 load average 类 似 ， 即 通过 计时 器 中 晰 在 内 核 
i 














i 多 核心 中 使 用 的 中 断 信号 存在 差异 ， 但 两 者 所 使 用 的 信号 都 是 硬件 以 一 定 的 周期 发 


load average 是 计算 CPU 相关 运行 队列 中 正在 保持 的 进程 描述 符 的 数 
量 。load average 的 数值 存放 在 内 核 的 全 局 数组 中 。 


而 CPU 使 用 率 的 运算 则 有 些许 不 同 。CPU 使 用 率 的 计算 结果 不 是 放置 
到 全 局 数组 中 ， 而 是 在 为 每 个 CPU 所 准备 的 专门 区 域 中 进行 存放 4。 正 
因为 为 每 个 CPU 划分 了 专门 的 区 域 存放 数据 ， 因 此 在 sar 中 才 可 以 获得 
每 个 CPU 的 具体 信息 。 























4 具体 是 在 内 核 中 的 cpu_usage_stat 结构 体 中 实现 的 。 

















为 了 完成 进程 的 切换 工作 ， 内 核 会 在 各 进程 生成 之 后 记录 进程 所 使 用 的 


CPU 时 间 ， 这 通常 被 称 为 “进程 记 账 ”(Process Accounting) 。 根 据 该 进 
程 记 账 获得 的 记录 ， 调 度 器 可 以 相应 地 降低 CPU 占用 时 间 过 长 的 进程 
的 优先 级 ， 或 者 在 该 进程 进行 一 定 的 计算 后 ， 将 CPU 让 渡 给 其 他 的 进 


程 。 


通过 统计 各 进程 的 CPU 使 用 时 间 ， 可 以 了 解 CPU 被 占用 的 情况 。 将 其 
换算 为 单位 时 间 的 计算 结果 ， 束 可 以 得 出 CPU 使 用 率 。 


这 里 有 如 下 两 处 关键 点 : 
。 load average 是 系统 全 局 的 计算 结 


。 CPU 使 用 率 和 LO 等 每 时 间 是 根据 类 型 及 具体 使 用 的 CPU 来 保 
存 的 计算 结 


据 此 束 可 以 弄 清楚 两 个 指标 的 差异 : 
。 load average 是 整个 系统 的 负载 的 指标 ， 不 能 进行 详细 的 分 析 


。 CPU 使 用 率 和 LO 等 竺 时 间 既 可 以 作为 整体 的 统计 报告 来 看 ， 也 
可 以 作为 具体 的 指标 来 看 


4.1.9 ”进程 记 账 的 内 核 编码 
在 了 解 了 进程 记 账 的 概要 之 后 ， 为 了 能 更 确切 地 理解 ， 还 需要 查看 进程 


记 账 的 实际 编码 。 首 先 ， 查 看 include/linux/kernel _stat.h 中 定义 的 
cpu_usage_stat 结构 体 和 kernel_stat 结构 体 。 














struct cpu usage _ stat { 
cputime64 七 User; 
cputime64 t nice; 
cputime64 t system; 
cputime64 t softirq; 
cputime64 t irq; 
cputime64 t idle; 
cputime64 七 iowait; 
cputime64 t steal; 

}; 


struct kernel stat { 
struct cpu usage_ stat cpustat; 


unsigned int irqs[NR_IRQS ] ; 
}; 
DECLARE PER CPU(struct kernel stat, kstat); 
该 结构 中 记录 并 保存 了 计算 得 出 的 CPU 使 用 时 间 等 数据 。 
请 看 cpu_usage_stat 结构 体 ， 可 以 发 现 ，sar 所 输出 的 项 目 ， 如 user、 
system、iowait 等 成 员 都 可 以 在 该 结构 体 中 确认 。kernel_stat 结构 体 中 包 


含 了 cpu_usage_stat 结构 体 ， 男 外 在 kernel_stat 结构 体 中 还 使 用 了 
DECLARE_PER_CPU() 宏 声明 了 每 个 CPU。 











进程 记 账 的 实际 处 理 是 在 kernel/timer.c 的 update_process_times() 函数 
中 定义 的 。 每 当 计 时 口中 断 时 ， 该 函数 都 会 被 调用 。 在 
update_process_times() 内 ， 可 以 判断 从 之 前 的 进程 记 账 处 理 开 始 到 现在 
这 段 时 间 内 当前 进程 的 行为 ， 并 更 新 统计 信息 。 


void update process times(int user tick) 


{ 


struct task_ struct *p = current; 
int cpu = smp_processor id(); 


/* Note: this timer irq context must be accounted for as well. */ 
if (user tick) 

account user time(p, jiffies to cputime(1)); 
else 

account_ system time(p, HARDIRQ® OFFSET, jiffies to cputime(1)); 























首先 ， 通 过 current 宏 来 获取 当前 进程 的 进程 描述 符 。 然 后 根据 
user_tick 的 数值 来 判断 分 支 。user_tick 会 判断 最 近 的 时 间 有 具体 是 用 户 时 
间 还 是 系统 时 间 。 


如 果 是 用 户 时 间 ， 则 调用 account_user_time() 函数 ， 人 否则 则 调用 
account_system_time() 函数 。 以 下 来 看 看 account_user_time0 的 实现 机 
制 |。 





void account user _ time(struct task struct *p, cputime t cputime) 


{ 


struct cpu usage stat *cpustat = &kstat this cpu.cpustat; 


cputime64 七 tmp 


p->utime = cputime add(p->utime, cputime); 


/* Add user time to cpustat. */ 
tmp = cputime to cputime64(cputime); 
if (TASK NICE(p) > 9) 
cpustat->nice = cputime64 add(cpustat->nice, tmp); 
else 
cpustat->user = cputime64 add(cpustat->user, tmp); 





过 参数 传递 的 “p” 是 当前 进程 的 进程 描述 符 。 


首先 ， 获 取 运 行 中 的 CPU 所 用 的 cpustat 结构 体 。 接 着 ， 使 用 
cputime_add 宏 更 新 当前 进程 的 utime 成 员 。 这 样 一 来 ， 该 进程 在 用 户 模 
式 所 消耗 的 CPU 时 间 的 数值 束 完 成 了 更 新 。 然后 ， 针 对 cpustat 结构 体 
的 nice 或 user 数值 ， 使 用 cputime64_add 宏 以 同样 的 方式 算出 经 过 时 

间 。 





另外 ，account_system_time0 是 如 何 实现 的 呢 ? 





void account system time(struct task struct *p, int hardirq offset, cputime 


{ 


struct cpu usage stat *cpustat = &kstat this cpu.cpustat; 
struct rq *rq = this rq(); 
cputime64 t tmp; 


p->stime = cputime add(p->stime, cputime); 


/* Add system time to cpustat. */ 
tmp = cputime to cputime64(cputime); 
if (hardirq count() - hardirq offset) 

cpustat->irq = cputime64 add(cpustat->irq, tmp); 
else if (softirq count()) 

cpustat->softirq = cputime64 add(cpustat->softirq, tmp); 
else if (p != rq->idle) 

cpustat->system = cputime64 add(cpustat->system, tmp); 
else if (atomic read(&rq->nr iowait) > 0) 

cpustat->iowait = cputime64 add(cpustat->iowait, tmp); 
else 

cpustat->idle = cputime64 add(cpustat->idle, tmp); 
/* Account for system time used */ 
acct update integrals(p); 


”| 
虽然 这 里 也 以 同样 的 方式 进行 了 处 理 ， 但 是 之 前 的 
update_process_times() 函数 中 所 描述 的 “如 果 用 户 模 式 不 工作 则 系统 模式 
工作 ”只 是 一 个 比较 粗略 的 条 件 分 支 。 实 际 上 当 用 户 模式 不 工作 时 ， 还 
存在 什么 都 没 做 的 idle 状态 、 系 统 模式 计算 时 则 、1O 等 待 时 间 等 情 
况 。 知 要 进行 上 述 这 些 判断 ， 需 要 深入 了 解 cpu_usage_stat 结构 。 





米 米 米 





虽然 稍微 有 些 复 杂 ， 不 过 我 们 还 是 了 解 了 CPU 使 用 率 统计 的 更 新 机 
制 。 这 样 一 来 ， 我 们 便 能 清楚 地 掌握 sar 及 top 命 令 中 所 罗列 的 各 个 指 
标 共 体 是 表示 什么 的 了 。 


4.1.10 ”线程 和 进程 
虽然 稍微 有 些 离 题 ， 但 还 是 有 必要 稍微 了 解 一 下 进程 和 线程 。 
通常 情况 下 ， 线 程 是 比 进程 还 要 小 的 运行 单位 。 在 进程 中 通常 能 够 使 多 


个 线程 同时 运作 ， 这 就 叫做 多 线程 。 知 要 在 一 个 程序 中 同时 并 行 多 个 处 
理 ， 可 以 采用 以 下 方式 ”: 





























5 也 有 在 单位 线程 中 通过 事件 驱动 (Event Driven ) 进行 处 理 的 方法 。 














。 通过 生成 多 个 进程 确保 多 个 环境 的 运行 《~ 多 进程 ) 
。 通过 生成 多 个 线程 确保 多 个 环境 的 运行 《~ 多 进程 ) 


MySQL 是 利用 多 线程 来 处 理 客户 端的 请 求 。Apache 中 知 将 MPM 选项 
设 为 “prefork”， 束 可 以 实现 多 进程 ， 奉 选择 “worker”"”， 则 可 以 实现 多 进 
程 + 多 线程 的 运作 。 


多 进程 (图 4.1.11) 和 多 线程 (图 4.1.12) 存在 根本 性 的 不 同 : 前 者 拥 
有 属于 自己 独立 的 内 存 空间 ; 后 者 则 是 共享 的 内 存 空间 。 因 此 后 者 具有 
更 经 济 的 内 存 消 耗 ， 而 且 在 进程 切换 时 不 发 生 内 存 空间 置换 ， 运 算 成 本 
相对 较 低 。 需 要 大 量 运行 环境 的 程序 ， 采 用 多 线程 比较 有 利 。 








虚拟 地 址 空间 


maintf } maint } 
do_hogel } do_hogel( ) 


do_fugal ) do_fugal ) 





父 子 
图 4.1.11 多 进程 〈 内 存 空间 不 同 。 复 制 ) 关 
※ SP: 栈 指针 ; PC: 程序 计数 器 。 








虚拟 地 址 空间 


进程 2 


进程 1 





图 4.1.12 ”线程 〈 内 存 空 间 相 同 ) 
内 核 中 的 进程 和 线程 
但 是 以 上 只 是 从 用 户 和 角度 来 看 进程 和 线程 的 差异 。 


而 在 内 核 内 部 ， 进 程 和 线程 的 处 理 方式 则 大 致 相同 。 针 对 一 个 线程 分 配 
一 个 进程 描述 符 ， 进 程 和 线程 用 完全 一 样 的 逻辑 调度 。 因 此 ， 在 运作 多 
线程 应 用 程序 时 ， 人 负载 计算 的 方式 也 不 会 发 生 什么 改变 。 


顺 市 一 提 ， 线 程 在 内 核 中 有 时 被 称 为 LWP=Light Weight Process， 即 
轻 量 进程 。 


ps 和 线程 

对 内 核 来 说 ， 进 程 和 线程 基本 相同 。 但 是 从 用 户 的 角度 来 看 ， 线 程 则 是 
在 进程 中 运行 的 运行 环境 。 总 之 ， 线 程 是 比 进程 更 小 的 概念 ， 进 程 包含 
线程 。 在 通过 ps 浏览 多 线程 的 全 部 线程 时 ， 需 要 相关 的 选项 。 


例如 在 查看 mysqld 的 进程 时 ， 只 能 看 到 如 图 4.1.13 所 示 的 两 个 进程 。 
这 里 如 图 4.1.14 那样 给 ps 增加 -L 选 项 。 





% ps -elf | egrep (CMD|mysql) 

F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY 
TIME CMD 

4 S root 3297 1 6 81 © - 13266 wait Jan25 ? 


66:66:66 /bin/sh /usr/bin/mysqld safe 
4 5S mysql 3329 3297 99 75 0 - 166738 stext Jan25 ? 
19-65:11:32 /usr/libexec/mysqld 





图 4.1.13 ps 的 运行 实例 





% ps -elf -L | egrep (CMD|mysql) | head 


F S UID PID PPID LWP CNLNP PRI NI ADDR SZ WCHAN STIME TTY 
TIME CMD 

4 S root 3297 1 3297 0 1 81 0 - 13266 wait Jan25 ? 
60:60:60 /bin/sh /usr/bin/mysqld safe 

4 S mysql 3329 3297 3329 6 37 75 6- 161251 - Jan25 ? 
66:11:23 /usr/libexec/mysqld 

1S mysql 3329 3297 3332 6 37 75 0 - 161251 - Jan25 ? 
66:63:44 /usr/libexec/mysqld 

1 S mysql 3329 3297 3333 6 37 75 6- 161251 - Jan25 ? 
66:63:44 /usr/libexec/mysqld 

1 S mysql 3329 3297 3334 6 37 75 6- 161251 - Jan25 ? 
61:66:69 /usr/libexec/mysqld 

1 S mysql 3329 3297 3335 6 37 86 0 - 161251 - Jan25 ? 


60:60:60 /usr/libexec/mysqld 


< 以 下 省 略 > 
图 4.1.14 ”使 用 -L 选项 显示 单位 进程 的 所 有 线程 


这 样 一 来 就 多 出 了 几 行 输出 的 内 容 ， 在 此 多 出 的 部 分 就 是 线程 。 请 注意 
Header 的 “PID” 和 “LWP” 列 。PID 是 进程 ID， 但 是 mysqld 的 进程 ID 完 
全 相同 。 另 一 方面 ，LWP 是 线程 ID 。 从 进程 ID 相同 但 线程 ID 不 同 可 
以 得 出 ， 这 些 线程 是 在 同一 进程 内 被 建立 的 多 个 线程 。 


“NLWP”(Number ofLWPs) 是 线程 个 数 。 在 此 可 以 看 出 ，mysqld_safe 
只 有 一 个 线程 ， 也 就 是 其 自 刁 ， 而 mysqld 线程 却 被 生成 了 37 个 。 


LinuxThreads 和 NPTL 


由 于 历史 原因 ，Linux 中 有 多 个 实现 多 线程 的 机 制 。 虽 然 目 前 统一 为 
了 “NPTL”(Native POSIX Thread Library) ， 但 是 稍 旧 的 发 行 版 还 有 可 
能 采用 的 是 “LinuxThreads” 实 现 机 制 | 。 


LinuxThreads 和 NPTL 几乎 没有 什么 区 别 ， 但 是 在 使 用 ps 查看 时 ， 
LinuxThreads 的 显示 和 进程 几乎 相同 。 在 NPTL 中 不 使 用 -L 选项 就 不 
能 确认 线程 ， 而 使 用 LinuxThreads 就 算 不 添加 -L 选项 也 能 确认 线程 ， 


,二 日 洋 
请 注意 不 要 混 湛 。 














4.1.11 ps、sar、vmstat 的 使 用 方法 
下 面 我 们 回 到 正题 。 在 此 之 前 我 们 了 解 了 : 
。 负载 监控 的 基本 策略 
。 load average 的 计算 过 程 
。 CPU 使 用 率 的 计算 过 程 


理解 了 上 面 的 内 容 ， 就 可 以 明白 各 命令 工具 输出 的 各 项 指标 。 基 于 上 文 
的 知识 ， 下 文 将 深入 介绍 ps、sar、vmstat 等 常用 工具 的 使 用 方式 。 


ps ...... 输出 进程 信息 
ps 〈Report Process Status) 是 输出 进程 信息 的 软件 。 是 从 用 户 空间 调用 





内 核 中 所 保持 的 进程 描述 符 中 存储 信息 的 工具 。 


让 我 们 来 看 一 下 ps auxw 命令 输出 的 信息 (图 4.1.15) ， 下 面 是 其 中 主 
要 的 几 列 。 


。 %CPU : 运行 ps 命令 时 该 进程 的 CPU 使 用 率 
。%MEM : 以 百分比 表示 进程 的 物理 内 存 消耗 程度 


。VSZ、RSS : 分 别 是 该 进程 所 确保 的 虚拟 内 存 区 域 的 大 小 及 物理 
内 存 区 域 的 大 小 (详情 见 后 ) 


。 STAT : 像 之 前 介绍 的 那样 ， 该 项 目 显 示 了 进程 的 状态 。 是 非常 
重要 的 项 目 


。 TIME : 表示 CPU 占用 时 间 的 项 目 《〈 详 情 见 后 ) 








% 


M 
0 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 


STAT START 
Ss Feb65 
S< Feb65 
SN Feb65 
S< Feb65 
S< Feb65 
S< Feb65 
S< Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
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U E 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


C M 
0 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
6 . 0 
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图 4.1.15 确认 ps auxw 的 输出 
VSZ 与 RSS..…. 虚 拟 内 存 和 物理 内 存 的 指标 
VSZ (Virtual Set Size) 是 为 了 支持 进程 的 正常 运作 所 设置 的 虚拟 内 存 


区 域 的 大 小 ，RSS (Resident Set Size) 是 物理 内 存 区 域 的 大 小 ， 但 这 里 
为 什么 会 出 现 两 个 内 存 的 指标 呢 ? 


不 仅 是 Linuxz， 多 任务 操作 系统 的 一 个 重要 功能 就 是 存在 虚拟 内 存 的 结 
构 。 所 请“ 虚拟 内 存 ”(Virtual Memory) ， 是 指 当 程序 需要 使 用 内 存 

时 ， 并 不 是 直接 让 物理 内 存 介 入 处 理 ， 而 是 让 物理 内 存 通过 软件 抽象 
层 ， 实 现 被 称 为 “页 面 文件 ”(Paging， 也 称 虚 拟 内 存 ) 的 虚拟 内 存 结 

构 ， 系 统 将 对 该 虚拟 内 存 区 域 进行 相应 的 管理 。 


一 些 进 程 需 要 确保 足 量 的 内 存 空间 才能 正常 工作 ， 但 由 于 多 任务 系统 保 
护 的 关系 ， 用 户 进 程 无 法 直接 访问 硬件， 于 古 便 和 暂时 将 处 理 中 断 ， 并 委 
托 内 核 来 确保 内 存 。 


里 然 内 核 必 须 确保 对 进程 内 存 的 分 配 ， 但 这 里 并 非 交 付 真 实 的 物理 内 存 
区 域 的 地 址 ， 而 是 交付 虚拟 内 存 的 地 址 。 进 程 把 从 内 核 返回 的 虚拟 内 存 
的 地 址 当成 真实 地 址 ， 然 后 重新 开始 处 理 。 


这 里 需要 留意 的 是 ， 内 核 为 进程 返回 的 虚拟 内 存 地 址 ， 事 实 上 此 时 还 未 
与 物理 内 存 建立 起 实质 的 联系 ， 也 就 是 说 可 以 认为 在 硬件 上 还 没有 划 出 
实际 的 内 存 区 域 。 直 到 进程 对 通过 内 核 得 到 的 虚拟 内 存 区 域 进行 写 入 

时 ， 对 物理 内 存 区 域 的 关联 操作 才 开 始 进行 ‘图 4.1.16) 。 可 以 说 内 核 
用 虚拟 内 存 这 个 中 间 的 抽象 屋 〈 善 意 地 ) 欺骗 了 进程 。 














想 要 申请 内 存 RSS 










交付 虚拟 内 存 。 
只 在 必要 的 时 候 
才 映 射 到 物理 内 
存 上 


图 4.1.16 虚拟 内 存 








使 用 虚拟 内 存 结构 能 获得 很 大 的 便利 ， 这 也 是 支撑 多 任务 操作 系统 的 一 
项 重要 功能 。 以 下 列举 几 点 : 


。 通过 使 用 虚拟 内 存 可 以 欺 驴 进程 ， 造 成 可 以 处 理 超出 物理 内 存 容 
量 的 更 大 内 存 空间 的 假象 


使 物理 存储 器 上 和 零乱 的 内 存 空间 看 起 来 像 是 一 个 连续 的 内 存 空间 
使 进程 认为 每 个 进程 都 拥有 独立 的 内 存 空间 


当 物 理 内 存 不 足 时 ， 长 时 间 没 被 使 用 的 虚拟 内 存 空 间 将 解除 与 物 
理 内 存 空 间 的 映射 ， 被 解除 映射 的 数据 将 二 次 存放 在 存储 装置 
(磁盘 等 ) 上 ， 当 需要 这 些 数据 时 会 进行 还 原 操 作 ， 这 通常 被 称 
为 “交换 ”(SWAP) 


在 不 同 的 两 个 进程 上 ， 所 使 用 的 虚拟 内 存 空 间 也 不 同 ， 通 过 将 这 
两 个 虚拟 内 存 空 间 映 射 到 同一 个 物理 内 存 空 间 ， 束 可 以 在 两 个 进 
程 间 共享 内 存 。IPC? 共享 内 存 等 就 是 通过 这 种 方式 实现 的 




















6Inter Process Communication 的 缩写 ， 即 进程 之 间 的 通信 (功能) 。 





VSZ 及 RSS 分 别 会 输出 虚拟 内 存 空间 及 物理 内 存 空间 的 大 小 。 当 频繁 
访问 交换 区 时 ， 通 常 可 以 判断 出 此 时 的 物理 内 存 空间 已 经 不 足以 使 用 ， 
因此 需要 时 长 留意 RSS 的 大 小 ， 针 对 占用 RSS 较 大 的 进程 查找 问题 根 
源 以 及 时 解决 ， 或 者 扩充 物理 内 存 的 容量 以 解决 潜在 的 负载 问题 。 


TIME...... CPU 占用 时 间 
TIME 是 表示 时 间 的 指标 ， 在 这 里 指 的 是 进程 实际 所 占用 的 CPU 时 
长 。 请 注意 这 里 不 是 生成 进程 后 经 过 的 时 长 。 


进程 实际 使 用 的 CPU 时 间 指 的 是 什么 呢 ? 相信 你 已 经 注意 到 了 ! 通过 
查看 之 前 进程 记 账 中 的 处 理 详情 ， 束 可 以 看 到 进程 描述 符 中 记录 的 CPU 
使 用 时 间 。 例 如 ， 当 系统 CPU 负载 较 高 时 ， 通 过 查看 ps 的 TIME 项 ， 
就 可 以 分 清 具体 是 哪个 进程 CPU 占用 了 较 多 资源 。 


通过 ps 命令 得 看 Blocking 和 Busy Loop 的 差 寞 
这 里 为 了 加 深 对 CPU 时 间 的 理解 ， 我 们 试 着 做 一 个 实验 。 前 先 尝 试 运 


行 两 个 无 限 循环 的 Ruby 脚本， 然后 在 ps 中 确认 该 进程 的 行为 。 第 一 
个 脚本 是 如 代码 清单 4.1.1 所 示 的 只 执行 加 法 的 脚本 (busy_loop.rb)。 运 





行 一 会 儿 该 脚本 后 再 看 看 ps 输出 的 结果 (图 4.1.17) “。 


"选项 没有 使 用 BSD 形式 的 auxw， 而 是 使 用 了 SysV 形式 的 -人 H， 虽 然 输出 与 先前 介绍 的 稍 有 
不 同 ， 但 是 可 以 看 出 信息 并 没有 很 大 差异 。 





























代码 清单 4.1.1 busy_loop.rb 


#!/usr/bin/env ruby 


i=0 
while true 

i += 1 
end 





% ps -fl -C ruby 
F S UID PID C TIME CMD 
0 R naoya 16646 69 60:60:23 ruby busy_loop.rb 


图 4.1.17 ps 的 运行 实例 (busy_loop.rb， 省 略 了 部 分 列 ) 


这 里 希望 大 家 注意 的 是 表示 状态 的 “S” 列 和 “TIME” 列 。 代 码 清 单 4.1.1 
的 脚本 只 在 CPU 上 进行 无 限 循环 的 加 法 运算 ， 没 有 进入 事件 等 待 的 处 
理 ， 因 而 在 “S” 列 中 ， 可 以 看 出 该 进程 恒 常 显示 为 “R”， 

即 “TASK_RUNNING” 状 态 。 因 为 CPU 一 直 被 消耗 ， 所 以 TIME 即 CPU 
的 占用 时 间 会 随 着 时 间 的 流逝 而 增加 。 此 类 无 限 循 环 的 CPU 计算 处 理 
被 称 为 Busy Loop。 

另 一 方面 ， 代 码 清 单 4.1.2 进行 了 什么 样 的 行为 呢 ? 其 实 该 脚本 就 是 读 
取 用 户 在 键盘 输入 的 内 容 的 脚本 (blockingrb) 。ps 的 结果 如 图 4.1.18 
所 示 。 


代码 清单 4.1.2 blocking.rb 











#!/usr/bin/env ruby 


while true 
puts gets 


% ps -fl -C ruby 
F S UID PID C TIME CMD 
0 S naoya 16753 0 60:60:60 ruby blocking.rb 


图 4.1.18 ps 的 运行 实例 (blocking.rb， 省 略 了 部 分 列 ) 

由 于 等 待 键盘 输入 ， 该 进程 被 Block， 因 此 状态 是 “<S$”， 也 就 

是 “TASK_INTERRUPTIBLE”。 还 有 ， 该 进程 只 要 变 为 待机 状态 ， 就 不 

占用 CPU 时 间 。 因 此 即使 等 待 再 长 时 间 ，TIME 的 数值 也 不 可 能 增加 。 

同样 是 无 限 循环 ，Busy Loop 的 脚本 和 被 Block 的 脚本 的 运作 方式 却 存 

在 很 大 差异 ， 这 通过 ps 命令 所 呈现 的 项 目 也 可 以 看 出 。 若 能 清楚 地 了 解 
进程 的 状态 变迁 和 CPU 占用 时 间 的 计算 机 制 ， 就 能 胸有成竹 地 阅读 ps 

中 各 个 列 的 项 目 了 。 

sar...... 查 看 系统 报告 的 各 项 指标 


可 以 查看 系统 报告 的 各 种 指标 的 工具 有 很 多 ， 其 中 通用 又 方便 的 是 
sar (System Activity Reporter ) 。 


sar 是 存在 于 sysstat 软件 包 中 的 指令 ， 有 两 个 用 法 : 
。 奶 漳 访 问 过 去 的 统计 数据 《默认 ) 
。 周期 性 地 确认 当前 数据 
在 sar 中 ， 运 行 了 sadc 的 后 台 程 序 。 若 安装 了 sysstat 软件 包 ，sadc 就 能 


目 动 从 内 核 收 集 报 告 进 行 存 储 。 如 前 所 述 ， 如 果 不 附 加 任何 选项 直接 运 
指令 的 话 ， 就 可 以 参考 sadc 所 收集 的 过 去 的 CPU 使 用 率 的 统计 
数据 














默认 显示 从 最 近 的 0:00 开始 的 数据 。 想 查阅 昨天 以 前 的 报告 时 ， 可 以 
像 图 4.1.19 那样 用 -f 选 项 指定 /var/log/sa 目录 下 保存 的 日 志文 件 。 


-f /var/log/sa/sa64 | head 
2.6.19.2-163.hatena.centos5 (goka.hatena.ne.jp) 62/64/68 


CPU  %user Mnice %system  %iowait %steal 
all 3.21 0.60 .31 2.16 0.60 
all 3.16 0.60 2.48 2.04 0.60 
all 3.01 60.60 2.34 1.94 0.60 
all 21:92 60.60 2429 1.95 60.60 





图 4.1.19 sar -的 运行 实例 


查阅 过 去 的 数据 的 功能 非常 重要 。 例 如 在 发 生 故 障 等 情况 下 ， 为 了 探寻 
故障 的 原因 ， 故 障 发 生前 后 的 数据 束 很 有 价值 。 男 外 还 能 通过 sar 的 数 
0 子 前 后 的 性 能 变化 ， 以 确认 此 次 程序 部 绪 是 否 存在 价 


如 果 不 查 看 过 去 的 数据 ， 而 是 查看 当前 数据 ， 可 以 使 用 类 似 sar 1 
1666 这 样 的 参数 格式 。“1 166e” 是 “每 隔 1 秒 采 样 一 次 ， 连 续 采 样 
1000 次 ”的 意思 。 


如 图 4.1.20， 可 以 查阅 每 秒 钟 的 CPU 使 用 率 。 如 果 要 确认 现在 系统 正 发 
生 着 什么 ， 多 数 情况 下 使 用 sar 即 可 。 











% sar 1 3 
Linux 2.6.19.2-163.hatena.centos5 (goka.hatena.ne.jp) 82/68/68 


16:13:36 CPU %user %nice %system %iowait %steal “ %idle 


16:13:31 all 2.04 8.66 3.56 3.82 6.66 96.59 
16:13:32 all 2.27 0.60 2.62 1.26 8.66 94.44 
16:13:33 all 2.28 0.60 2.03 1.52 6.66 94.16 
Average: all 2.20 0.60 2.54 2.20 0.60 93.67 





图 4.1.20 ”通过 sar 命令 来 查看 当前 数据 


可 以 为 sar 命 令 指定 选项 ， 以 查看 CPU 使 用 率 以 外 的 各 数值 。 虽 然 能 够 
通过 不 同 的 选项 来 查阅 大 量 的 报告 ， 但 这 里 只 集中 介绍 几 种 比较 常用 的 
选项 的 使 用 方式 。 另 外 ， 正 如 上 文 所 介绍 的 那样 ， 用 -P 选 项 可 以 查阅 每 
个 CPU 的 数据 。 





sar -U ...... 查看 CPU 的 使 用 率 


查看 默认 情况 下 的 CPU 使 用 率 等 信息 可 以 使 用 sar -u 命令 (图 
4.1.21) 。 各 列 指 标 分 别 为 


user : 在 用 户 模 式 中 ，CPU 被 消耗 的 时 间 比 例 


。nice : 通过 nice 变更 了 调度 优先 级 的 进程 ， 在 用 户 模 式 下 所 消耗 
的 CPU 时 间 的 比例 


。 system : 在 系统 模式 中 ，CPU 被 消耗 的 时 间 比 例 
iowait : 磁盘 1/O 等 待 的 Idol 状态 消耗 的 CPU 时 间 比 例 


steal : 利用 Xen 等 系统 虚拟 化 技术 时 ， 等 竺 其 他 虚拟 CPU 计算 
所 占用 的 时 间 比 例 


。idle : CPU 没有 等 待 磁盘 了 TO 的 空闲 时 间 所 占用 的 时 间 比 例 


% sar -ul13 
Linux 2.6.19.2-163.hatena.centos5 (koesaka.hatena.ne.jp) 62/68/68 


CPU %user %nice %system %iowait  %steal 
all 14.89 
all 26.37 
all 17.60 
all 19 .42 





图 4.1.21 sar -u 的 运行 实例 


像 迄今 为 止 所 看 到 的 那样 ， 在 考虑 负载 分 流 时 ，usersysteryiowaitUidle 
等 的 数值 将 被 列 为 重要 的 参考 指标 。 


sar -gq ...... 查看 load average 


站 定 -q 参 数 ， 可 以 查看 运行 队列 中 存在 的 进程 数 、 系 统 中 进程 的 大 小 及 
load average 等 (图 4.1.22) 。 访 报告 的 数值 会 随 着 时 间 发 生变 化 ， 比 其 
他 命令 更 方便 。 








-q13 
2.6.19.2-163.hatena.centos5 (koesaka.hatena.ne.jp) 682/68/68 


runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 
6 123 8.62 0.72 8.81 
6 123 0.62 0.72 8.81 
2 122 0.62 0.72 6.81 
1 123 0.62 0.72 0.81 





图 4.1.22 sar -q 的 运行 实例 
sar -r ..…….. 查 看 内 存 的 使 用 状况 
指定 -r 参数 ， 可 以 浏览 物理 内 存 的 使 用 状况 。 图 4.1.23 是 在 安装 有 
4GB 的 物理 内 存 的 服务 器 上 执行 sar -r 命令 的 结果 。 各 列 的 
kbmemfree 和 kbmemused 中 的 “kb” 是 Kilobyte 的 缩写 。 其 中 几 个 主要 项 
目的 意义 如 下 。 

。 kbmemfree : 可 用 的 物理 内 存 容量 

。 kbmemuserd : 使 用 中 的 物理 内 存 容量 

。 memused : 物理 内 存 的 使 用 率 

。 kbbuffers : 被 作为 内 核 上 的 缓冲 区 使 用 的 物理 内 存 容量 

。 kbcached : 内 核 中 被 作为 缓存 使 用 的 物理 内 存 容量 

。 kbswpfree : 可 用 的 交换 区 容量 

。 kbswpued : 使 用 中 的 交换 区 容量 








% sar -r | head 
Linux 2.6.19.2-163.hatena.centos5 (koesaka.hatena.ne.jp) 82/68/ 


66:06:601 kbmemfree kbmemused %memused kbbuffers kbcached kbswpfree 


60:16:61 522724 3454812 86.86 114516 2236880 20482604 
60:20:01 534972 3442564 86.55 114932 2225886 20482604 
60:360:61 437964 3539572 88.99 115348 2238952 20482604 
60:460:01 491184 3486352 87.65 115768 2251446 2048204 


60:50:01 4912608 3486328 87.65 116166 2263248 2048204 


601:60:061 457364 3520172 88.50 116524 2274732 20482604 
61:16:61 453172 3524364 88.61 116964 2281576 20482604 


图 4.1.23 sar -r 的 运行 实例 (省 略 部 分 列 ) 


使 用 sar -r， 可 以 随 着 时 间 的 推移 掌握 内 存 的 使 用 情况 ， 即 了 解 内 存 
具体 被 用 在 了 什么 地 方 ， 补 使 用 了 多 大 比例 等 。 大 与 后 述 的 sar -W 配 
合 使 用 ， 还 可 以 在 频繁 访问 交换 区 时 ， 了 人 解 该 时 间 段 内 内 存 的 使 用 情 

况 。 

减轻 IO 负载 及 页 面 缓存 

在 图 4.1.23 中 ,“%memused” 显 示 为 了 90% 左右 的 数字 ， 可 用 容量 仅 为 
500MB (Megabyte〉 左右 。 随 着 时 间 的 推移 ， 可 用 容量 kbmemfree 将 越 
来 越 少 ， 可 以 判断 出 未 来 内 存 的 使 用 可 能 会 越 来 越 紧张 。 但 是 这 里 我 们 
忘记 了 Linux 中 “页 面 缓存 ”(Page Cache) 的 存在 。 

Linux 从 磁盘 读 出 一 次 数据 后 ， 会 尽 可 能 地 在 内 存 中 进行 缓存 ， 以 加 速 
下 次 的 磁盘 读 取 (Disk Read) 速度 。 像 这 样 ， 从 内 存 中 读 取 的 数据 的 组 
存 就 被 称 为 页 面 绥 存 。 

Linux 是 将 内 存 切 分 为 4KB (Kilobyte)〉 的 块 进行 管理 的 ， 该 4KB 的 块 
就 被 称 为 “页 面 "Page)。 页 面 缓存 ， 顾 名 思 义 ， 是 通过 绥 存 页 面 进行 工 
作 的 。 也 就 是 说 ， 从 磁盘 读 取 数 据 时 就 建立 相应 的 页 面 缓存 ， 这 样 在 下 
次 读 出 数据 时 ， 直 接 将 数据 从 页 面 缓存 转送 到 用 户 空间 即 可 。 


请 记 住 Linux 平台 中 页 面 缓 存 的 行为 策略 ， 即 Linux 将 尽 可 能 地 利用 更 
多 的 内 存 来 转送 页 面 缓 存 。 也 就 是 说 : 


。 无 论 在 磁盘 上 读 取 什 么 数据 ， 

只 要 该 数据 在 页 面 缓存 上 不 存在 ， 

并 且 有 空余 的 内 存 空间 ， 

就 在 页 面 缓存 中 建立 新 的 缓存 (而 不 是 丛 代 旧 的 缓存 ) 

如 果 当 前 没有 足够 的 内 存 用 来 缓存 ， 惑 丢弃 有 旧 的 缓存 以 更 换 为 新 的 组 




















存 。 当 进程 需要 内 存 空间 时 ， 将 优先 释放 页 面 缓存 以 分 配 内 存 。 


在 sar -r 的 结果 中 ， 随 着 时 间 的 推移 kbmemfree 会 不 断 减 少 ， 这 是 因 
为 存在 页 面 缓存 的 缘故 ， 从 页 面 缓存 所 分 配 的 内 存 容量 即 kbcached 的 
数值 在 不 断 增加 这 一 点 可 以 看 出 。 


通过 页 面 缓存 减轻 VO 负载 的 实施 效果 


页 面 缓存 可 以 多 大 程度 地 减轻 负载 呢 ? 如 打数 据 被 完全 缓存 在 内 存 中 ， 
因为 几乎 所 有 请 求 都 是 在 读 取 内 存 ， 因 此 可 以 预见 读 取 速 度 将 和 程序 直 
接 读 取 内 存 的 速度 无 寞 。 


例如 ， 将 实际 运行 MySQL 的 数据 库 服务 器 的 内 存 从 8GB 增加 到 
16GB， 增 加 前 后 的 sar -P 6 的 输出 比较 如 图 4.1.24 所 示 。 由 于 该 数据 
库 保 存 的 数据 不 到 20GB， 因 此 如 果 有 16GB 的 内 存 ， 束 可 以 缓存 大 部 
分 的 有 效 数 据 。 





e 内 存 为 8GB 时 


%nice %system %iowait 
60.60 
60.60 
60.60 
0.60 

















%nice %system 
60.60 17.56 
60.60 16.60 
60.60 16.93 
60.60 18.37 





图 4.1.24 sar -P 0 的 输出 比较 


增加 内 存 的 效果 一 目 了 然 ， 原 本 高 达 20% 的 IO 等 待 (9%iowait》 几乎 
不 存在 了 。 


可 见 ， 特 别 是 在 IO 密集 型 服务 器 中 ， 减 轻 IO 负载 的 有 效 的 方法 就 是 
结合 服务 器 处 理 的 数据 量 安装 相 匹 配 的 内 存 。 


通过 运行 sar -r 命令 ， 可 以 判断 内 核 确 保 了 多 少 绥 存 。 比 较 缓存 的 容 
量 及 实际 应 用 程序 处 理 的 有 效 数 据 量 ， 如 果 数 据 量 较 多 ， 就 需要 考虑 增 








加 和 内存。 通过 将 数据 合理 地 进行 缓存 ， 束 能 将 磁盘 的 访问 频率 降 至 最 
低 。 使 用 后 述 的 vmstat 工 具 ， 惑 能 确认 实际 的 磁盘 访问 频率 如 何 。 


在 不 能 增加 内 存 时 ， 可 以 考虑 将 数据 分 割 到 不 同 的 主机 上 。 顺 利 分 割 数 
据 后 ， 不 仪 能 够 降低 磁盘 IO 的 负载 ， 由 于 扩充 了 缓存 中 的 数据 容 载 
量 ， 因 此 还 可 以 大 幅度 提高 设备 的 吞吐 量 。 


将 所 需 的 数据 整个 放 到 页 面 缓存 上 


如 前 所 述 ， 页 面 缓存 就 是 缓存 ， 在 缓存 失败 时 ， 数 据 目 然 要 从 硬盘 上 读 
取 。 由 于 系统 局 动 后 大 部 分 数据 都 是 未 缓存 的 状态 ， 因 此 大 部 分 的 读 取 
请 求 都 会 被 转送 到 硬盘 而 非 缓存 上 。 


在 运行 MySQL 等 的 数据 库 服 务 器 的 环境 中 ， 当 处 理 大 规模 的 数据 时 ， 


需要 特别 注意 这 一 点 。 


例如 ， 在 重新 启动 服务 器 进行 维护 等 时 ， 之 前 在 内 存 中 被 缓存 的 页 面 绥 
存 将 全 部 被 清空 。 那 么 在 没有 建立 相应 的 缓存 的 情况 下 ， 实 际 运 行 请 求 
数 很 多 的 数据 库 服 务 器 会 及 生 什么 呢 ? 可 以 想象 ， 约 英 所 有 的 数据 库 访 
问 请 求 都 会 造成 磁盘 IO 的 负载 压力 。 在 大 规模 的 环境 中 ， 基 于 这 个 原 
因 致 使 数据 库 被 锁定 ， 导 致 服务 暂 俘 的 情况 屡见不鲜 。 因 此 在 生产 环境 
人 























例如 ， 当 IO 密集 型 服务 器 的 IO 负载 较 高 ， 否 吐 数据 有 困难 时 ， 是 否 
对 页 面 缓存 进行 优化 ， 差 异 是 很 明显 的 。 


图 4.1.25 中 介绍 了 一 个 很 典型 的 数据 报表 。 这 是 在 安装 有 4GB 内 存 的 
MySQL 服务 器 中 ， 在 系统 启动 后 20 分 钟 左右 使 用 sar -r 命令 输出 的 
ee. 
和 








kbmemfree kbmemused %memused kbbuffers kbcached 
3566992 157272 4.22 11224 50136 


3546264 178666 4.78 12752 66548 
112628 3611636 96.98 4312 3499144 





图 4.1.25 ”保持 页 面 缓存 的 实例 (省 略 部 分 列 ) 





启动 该 程序 前 ， 内 存 使 用 率 不 到 5%， 大 约 有 3.5GB 的 可 用 内 存 。 启 动 
该 程序 读 取 数据 文件 后 ， 内 存 使 用 率 提 高 到 了 96.98%。 这 是 因为 程序 
读 取 了 相应 的 数据 文件 ， 此 时 已 经 将 文件 内 容 放 到 了 页 面 缓存 上 。 


sar -W ...... 查看 交换 区 的 吞吐 状况 


指定 -W 参 数 ， 可 以 确认 交换 区 的 吞吐 状况 〈 图 4.1.26) 。 “pswpin/s” 是 

每 秒 系统 换 入 的 页 面 数 ，“pswpout”* 则 与 之 相反 ， 是 每 秒 系统 换 出 的 页 

面 数 。 发 生 频 繁 的 交换 时 ， 服 务 器 的 吞吐 量 性 能 会 大 幅 下 降 。 当 服务 器 
的 状态 不 理想 时 ， 可 以 利用 sar -W 检 测 是 否 是 由 于 内 存 不 足 的 原因 使 
交换 区 友 生 了 频繁 的 交换 。 








pswpin/s pswpout/s 
60.60 0.00 


8.60 0.60 
44.01 811.27 
0.39 7.21 





图 4.1.26 sar -W 的 运行 实例 
vmstat ...... 查看 虚拟 内 存 的 相关 信息 


简单 介绍 一 下 vmstat (Report Virtual Memory Statistics) 的 使 用 方 

法 。vmstat 的 “vm”* 是 指 Virtual Memory 〈 虚 拟 内 存 ) 。vmstat 是 可 以 
查看 虚拟 内 存 相 关 信 息 的 工具 。 大 多 数 指标 也 都 可 通过 sar 命令 查看 ， 
以 实时 确认 CPU 使 用 率 及 实际 的 IO 等 待 
时 间 。 


vmstat 和 sar 的 使 用 方法 很 相似 。vmstat 1 166 是 “每 隔 1 秒 采 样 一 
次 ， 连 续 采 样 1000 次 ”的 意思 。 











图 4.1.27 是 vmstat 的 输出 实例 。 各 个 项 目的 意义 请 参阅 man vmstat 
的 帮助 文件 。 但 通过 之 前 的 说 明 ， 从 项 目 名 称 应 该 就 能 想象 到 大 概 的 意 
了 


memory 
free buff cache 


4 61692 342476 118464 
4 61692 342476 118464 
4 61692 342486 118464 





0 6 4 61692 342486 118464 0 0 0 © 161 106 68 6 10609 


图 4.1.27 vmstat 的 输出 实例 

图 4.1.27 中 所 示 的 “bi* 和 “bo” 的 数值 的 意义 分 别 为 
。 bi : 每 秒 从 块 设 备 接收 到 的 块 数 ， 即 读 块 设备 〈blocks/s ) 
。 bo : 每 秒 发 送 到 块 设 备 的 块 数 ， 即 写 块 设备 〈blocks/s ) 


所 谓 块 设备 〈Block Device) ， 坦 和 白 说 就 是 二 次 存储 装置 ， 也 就 是 做 
盘 。Linux 是 把 便 件 的 输入 输出 分 成 以 下 两 类 进行 处 理 的 。 


。 字符 设备 (Character Device) : 以 字 节 为 单位 进行 输入 输出 的 硬 
件 





。 块 设备 :简称 为 块 ， 以 一 定 大 小 的 块 为 单位 进行 输入 输出 的 硬件 


磁盘 就 相当 于 这 个 块 设备 。 通 过 vmstat 命令 ， 可 以 将 此 时 磁盘 的 读 
(bi)〉 写 (bo) 情况 以 块 为 单位 显示 出 来 。 


通过 top 和 sar 命令 ， 可 以 同时 确认 CPU 使 用 率 及 IO 等 竺 时 间 。 但 
是 从 IO 等 待 的 数字 我 们 只 能 看 出 系统 宏观 的 IO 等 待 时 间 ， 如 果 想 知 
道具 体 哪里 发 生 了 LO 的 读 写 ， 可 以 使 用 vmstat 命 令 来 进行 确认 。 


4.1.12 ”找到 系统 负载 的 症结 并 解决 


明白 了 如 何 监控 负载 之 后 ， 接 下 来 束 要 进入 优化 系统 的 诬 题 了。 里 然 这 
么 说 ， 但 是 本 书 中 并 不 会 做 过 多 讲解 。 提 到 “优化 ”这 个 词语 ， 说 不 定 有 
人 会 想 这 是 要 将 软件 性 能 提高 两 三 倍 呢 。 


但 其 实 优化 的 真正 工作 是 “ 找 出 系统 瓶颈 并 加 以 解决 ”。 首 移 需 要 了 解 到 
的 是 ， 想 要 突破 硬件 或 软件 原本 的 性 能 是 怎样 努力 都 无 法 达到 的 ， 我 们 
所 能 做 的 束 是 “充分 友 挥 硬 / 软件 本 来 的 性 能 ， 解 决 可 能 存在 的 问题 ”。 


最 近 的 系统 和 中 间 件 ， 默 认 的 设 定 状 态 束 可 以 充分 友 挥 性 能 。 就 像 即使 
拓宽 了 不 拥堵 的 高 速 公路 车 道 ， 一 辆 汽车 到 达 目 的 地 的 时 间 也 不 会 缩 
短 。 如 果 默 认 的 设 定 已 经 是 最 优 ， 那 么 无 论 再 怎么 改变 设 定 ， 大 多 数 情 








况 下 也 是 没有 效果 的 。 


例如 ， 逻 辑 最 优 的 情况 下 ，CPU 也 需要 10 秒 时 间 计 算 处 理 ， 无 论 怎样 
改动 系统 的 设置 也 不 可 能 缩短 至 10 秒 以 下 。 这 就 是 一 个 典型 的 不 拥堵 
的 高 速 公 路 的 例子 。 


但 若是 程序 的 VO 性 能 存在 问题 ， 该 程序 本 来 10 秒 就 可 以 结束 ， 但 结 
果 花 费 了 100 秒 才 完 成 WO 的 读 写 ， 这 种 情况 下 就 可 以 优化 IO 性 能 。 
这 个 是 拥堵 的 高 速 公 路 的 例子 。 为 了 改善 IO 性 能 ， 需 要 考虑 如 下 问 


题 : 
。 能 人 否 通过 增加 内 存 确保 足 量 的 缓存 空间 来 解决 
。 原本 数据 量 是 合 过 多 
。 是 否 需 要 变更 应 用 程序 方面 的 VO 算法 


知道 了 问题 的 原因 之 后 ， 根 据 经 验 很 快 束 能 找到 适当 的 解决 办 法 。 而 实 
践 这 一 解决 方法 的 过 程 ， 就 是 所 谓 的 优化 。 


最 后 再 强调 一 这， 为 了 最 大 限度 地 友 挥 硬件 及 系统 的 性 能 ， 需 要 掌握 中 
够 的 经 验 ， 例 如 发 生 瓶 颈 时 需要 能 清楚 地 判明 具体 是 哪里 出 现 了 瓶颈 
等 。 本 章 中 所 说 明 的 有 关系 统 内 部 的 实现 机 制 和 负载 监控 的 方法 ， 都 是 
最 基础 的 知识 。 











4.2 ”Apache 的 优化 


4.2.1 Web 服务 器 的 优化 


截止 到 目前 都 是 在 围绕 系统 进行 讲述 ， 下 面 我 们 将 目光 转向 系统 上 运行 
的 应 用 程序 、Web 服务 器 。 这 里 主要 介绍 广泛 使 用 的 Web 服务 器 : 
Apache HTTP SERVER (Apache) 8。 


8URL http://httpd.apache.org/ 


与 系统 的 优化 类 似 ，Web 服务 器 的 优化 也 并 不 是 说 能 够 让 Web 服务 器 
的 性 能 有 两 三 倍 的 提高 。 这 里 的 优化 是 指 充分 发 挥 服务 器 原本 应 有 的 性 


能 。 
4.2.2 Web 服务 器 遭遇 瓶颈 怎么 办 


其 实 ， 当 Web 服务 器 因 超载 而 不 能 很 好 地 返回 啊 应 时 ， 问 题 基本 上 与 
Web 服务 器 的 配置 并 无 太 大 关系 。Web 服务 器 是 相对 比较 稳定 的 软 
件 ， 在 系统 上 并 不 消耗 过 多 的 资源 。 


问题 只 是 无 啊 应 的 问题 在 Web 服务 器 上 表现 得 比较 明显 ， 而 其 实 症结 
并 不 一 定 在 Web 服务 器 。 束 像 生病 出 现 了 发 烧 现 象 一 样 ， 光 是 退烧 ， 
病 是 无 法 治愈 的 。 


在 这 样 的 情况 下 ， 无 论 如 何 改动 Apache 的 配置 ， 只 要 其 他 地 方 还 存在 
问题 ， 那 么 再 怎么 调整 Apache 的 配置 也 是 没有 意义 的 ， 请 首先 认识 到 
这 一 点 。 正 如 在 4.1 节 中 所 介绍 的 那样 ， 我 们 不 能 单 改 变 Apache 的 配 
置 来 监控 系统 的 情况 ， 碍 出 问题 的 根源 是 最 重要 的 。 这 里 也 需要 做 

到 “ 别 腊 断 ， 请 监控 ?>。 很 多 问题 都 可 以 使 用 目前 为 止 了 解 到 的 ps、sar 
、 vmstat 等 工具 找 出 。 


当 人 硬件 和 系统 充分 及 挥 其 性 能 时 ， 古 不 太 会 出 现 负载 超标 的 情况 的 ， 但 
征 一 旦 发 生 负 载 超标 ， 就 需要 仔细 权衡 Web 服务 器 的 各 项 配置 。 本 文 
将 从 Apache 的 配置 项 目 中 ， 选 取 几 个 在 大 规模 并 发 的 生产 环境 中 可 能 
会 影响 性 能 的 设置 选项 进行 讲解 。 




















4.2.3 ”Apache 的 并 发 处 理 与 MPM 
在 讲解 Apache 的 配置 项 目 之 前 ， 先 来 回顾 一 下 Apache 的 并 发 处 理 的 结 


人 


不 仅 限 于 Apache， 面 向 非特 定 的 多 个 客户 端的 公 网 服务 器 都 需要 能 够 

并 发 处 理 来 自 多 个 客户 端的 请 求 。 知 不 进行 并 发 处 理 ， 在 一 个 客户 端 连 
接 服务 器 进行 输入 输出 期 间 ， 其 他 客户 端 将 无 法 连接 到 该 服务 器 (图 

4.2.1) 。 特 别 是 以 Apache 为 代表 的 Web 服务 器 ， 如 何在 同一 时 间 处 理 
并 发 处 理 的 正确 实现 会 对 服务 器 的 性 
能 带 来 很 大 影响 。 








图 4.2.1 能 /和 否 并 发 处 理 
目前 常用 的 有 以 下 几 种 并 发 处 理 模式 : 
。 通过 生成 多 个 进程 实现 并 发 处 理 的 多 进程 模式 
。 不 通过 进程 ， 而 使 用 更 轻 量 的 运行 单位 一 一 线程 的 多 线程 模式 


。 通过 监控 输入 输出 事件 ， 在 事件 发 生 时 进行 切换 处 理 ， 即 可 使 用 
单线 程 进行 并 及 人 处理， 这 束 是 事件 驱动 的 处 理 模式 


这 些 模式 各 有 优 缺 后 ， 不 能 肯定 哪个 最 好 。 目 前 也 有 综合 了 这 些 模式 的 


应 用 。 

Apache 通过 模块 化 清楚 地 分 离 了 内 部 的 各 种 功能 ， 进 行 并 发 处 理 的 核 
心 部 分 也 单独 成 为 了 模块 的 结构 。 在 这 里 ， 模 块 通常 被 称 为 

MPM (Mnulti Processing Module) 。 根 据 所 选择 的 MPM 的 不 同 ， 用 户 
可 以 决定 使 用 不 同 的 并 发 处 理 模 式 。 在 Apache 2.2 中 可 以 使 用 的 MPM 
可 通过 以 下 链接 进行 确认 。 


URL http://httpd.apache.org/docs/2.2/zh-cn/mod/ 


UNIX 环境 中 最 具 代 表 性 的 MPM 是 以 下 两 个 (图 4.2.2) 9 : 





1 9 此 外 还 有 在 worker 上 融合 事件 模式 的 优势 的 “event MPM”， 在 Apache 2.2 版 本 上 该 模块 可 以 
在 实验 的 环境 中 使 用 ， 没 有 被 过 多 地 利用 在 生产 中 。 





。 prefork: 提前 生成 〈Prefork) 多 个 进程 以 供 客户 端 连接 的 多 进程 
模式 


。 worker : 多 线程 和 多 进程 的 混合 型 模式 


prefork 进程 worker 





图 4.2.2 UNIX 环境 中 具有 代表 性 的 MPM 
由 于 是 在 编译 时 决定 具体 使 用 哪 种 MPM 模式 的 ， 因 此 之 后 再 决定 使 用 








其 他 MPM 时 基本 上 就 需要 重新 编译 Apache。 但 在 Red Hat Enterprise 
Linux 及 基于 Red Hat 的 Cent OS 的 Linux 上 ， 同 时 安装 了 支持 prefork 
和 worker 的 两 种 httpd。 默 认可 以 使 用 prefork 混合 模式 ， 知 要 切换 到 
worker 模式 ， 可 以 在 /etc/sysconfig/httpd 中 进行 如 下 设 定 : 


HTTPD=/usr/sbin/httpd.worker 


prefork 与 worker， 进 程 与 线程 


prefork 是 多 进程 模式 ，worker 是 多 线程 和 多 进程 的 混合 型 模式 。 由 于 
后 者 所 占用 的 内 存 相 对 较 小 ， 因 此 在 大 规模 并 发 环境 中 更 适合 使 用 
worker 模式 。 让 我 们 再 详细 说 明 一 下 。 


从 编程 模型 看 多 进程 /多 线程 的 锚 寞 


Apache 不 仪 可 以 返回 单一 的 HTML 或 图 片 等 静态 文件 ， 还 可 以 结合 
mod_perl 和 mod -php 等 模块 被 作为 AP 服务 器 来 使 用 ， 或 者 如 2.1 节 中 
所 介绍 的 那样 结合 mod_proxy_balancer 模块 被 作为 反 同 代理 使 用 ， 可 以 
看 出 模块 的 选择 可 以 决定 Apache 的 功能 。Apache 2.2 的 使 用 范围 则 更 
加 广泛 《当然 也 存在 一 些 异 议 ) ， 如 今 Apache 与 其 说 是 Web 服务 器 ， 
不 如 说 是 一 个 通用 的 网 络 服务 平台 。 


一 般 来 说 ,，“ 多 进程 ?和 “多 线程 * 之 中 ， 后 者 的 编程 模型 往往 更 加 复杂 。 
这 里 我 们 再 来 重新 确认 一 下 图 4.1.11 及 图 4.1.12。 


k 享 内 存 。 内 存 空间 是 独立 且 
安 


。 在 多 线程 中 ， 多 个 线程 共享 和 内存 空间 ， 需 要 留意 不 能 及 生 资源 冲 
突 。 这 也 是 多 线程 编程 复杂 的 原因 
办 此， 在 第 三 方 的 Apache 模块 中 ， 存 在 不 能 在 多 线程 环境 中 正和 工作 
以 及 不 是 基于 多 线程 运行 的 模块， 这 些 模块 都 是 以 使 用 prefork 


因此 ， 我 们 可 以 对 这 两 种 模块 做 出 如 下 定位 。 


























。 prefork : 该 MPM 具有 更 高 的 稳定 性 和 辐 后 兼容 性 
。 worker : 该 MPM 的 可 扩展 性 更 强 


需要 考虑 使 用 第 三 方 模块 时 使 用 worker， 或 者 在 使 用 第 三 方 模块 时 ， 根 
据 该 模 央 的 规格 合理 选择 prefork 或 worker， 这 是 一 个 应 该 遵循 的 准则 











10 在 worker 中 运行 mod_perl 时 ，Perl 将 通过 ithreads 生成 线程 。 由 于 Perl 的 线程 多 少 有 些 特 
殊 ， ns 的 情况 下 可 能 存在 一 些 规格 的 差异 ， 因 此 有 很 多 用 户 因为 讨厌 这 一 点 而 选择 
prefork 模式 。 


从 性 能 的 观点 来 看 多 进程 /多 线程 的 差异 


0 种 情况 下 ， 在 多 进程 和 多 线程 中 ， 后 者 更 轻 量 更 快 。 主 要 原因 有 以 下 


@ 多 进程 使 用 多 个 独立 的 内 存 空间 ， 而 多 线程 只 使 用 共享 的 内 存 空 
间 ， 因 此 内 存 消耗 量 较 少 


@ 因为 多 线程 共 译 内 存 空 间 ， 所 以 线程 切换 的 成 本 低 于 多 进程 
在 Apache 中 ， 基 于 什么 因素 来 决定 选择 哪 种 模式 呢 ? 


关于 @， 从 内 存 占用 量 方面 来 说 确实 使 用 多 线程 的 worker 更 胜 一 筹 。 
但 事实 上 即使 在 使 用 多 进程 的 情况 下 ， 由 于 内 存 空间 在 没有 更 新 时 是 被 

父子 进程 所 共享 的 〈 即 写 时 复制 技术 ，Copy-on-Write) ， 因 此 性 能 上 并 
没有 显著 差异 。 关 于 写 时 复制 技术 后 面 会 有 详细 讲解 。 


@ 其 实 是 在 讲 上 下 文 切 换 (Context Switch， 也 称 文本 切换 ) 的 成 本 差 
别 。 在 多 任务 操作 系统 中 ， 为 实现 并 发 处 理 ， 需 要 在 短 时 间 内 切换 处 
理 内 容 不 同 的 进程 /线程 其， 此 时 的 进程 /线程 的 转换 处 理 就 被 称 为 “上 
下 文 切换 ”。 在 进行 上 下 文 切换 时 ， 由 于 多 线程 是 共享 内 存 空 间 的 ， 因 
此 可 以 跳 过 内 存 空 间 的 切换 处 理 。 由 于 没有 发 生 切 换 内 存 空 间 的 动作 ， 
因此 就 不 需 要 改变 CPU 上 的 内 存 缓冲 《正规 叫 法 是 TLBZ2) ， 这 对 性 

能 的 提升 具有 很 显著 的 作用 。 


了 1 关于 多 任务 切换 的 详细 内 容 请 参考 4.1 节 。 

































































LTLB (Translation Lookaside Buffer， 转 址 旁 路 缓存 ， 也 被 称 为 页 表 缓 存 、 转 译 后 备 缓冲 器 ) 
是 为 了 提高 将 内 存 的 虚拟 地 址 映射 到 物理 地 址 这 一 处 理 的 速度 的 缓存 ， 是 存在 于 CPU 内 部 的 
结构 。 一 旦 发 生 上 下 文 切 换 ，TLB 就 会 被 刷新 〈Flash) ， 受 此 影响 若 TLB 缓存 失误 ， 则 损失 
的 性 能 成 本 会 比较 高 。 





















































基于 以 上 两 点 可 以 明白 如 下 内 容 : 


。 即使 将 prefork 变更 为 worker， 对 于 单位 客户 端的 啊 应 时 间 也 未 
必 会 变 短 


。 即使 将 prefork 变更 为 worker， 只 要 拥有 足够 的 内 存 ， 则 能 够 同 
时 操作 的 并 发 数 也 并 不 会 增加 


。 即使 将 prefork 变更 为 worker， 只 要 不 存在 海量 的 上 下 文 切换 
(没有 同时 并 发 的 大 量 访问 ) ， 则 改善 的 效果 并 不 大 
因此 也 请 大 家 认识 到 将 prefork 切换 为 worker 能 够 改善 性 能 的 情况 是 很 
有 限 的 。 
相反 ， 适 合 变更 为 worker 模式 的 情况 如 下 : 


。 可 用 内 存量 不 多 或 仅 有 少量 的 内 存 消 耗 时 。 在 这 种 情况 下 ， 比 进 
程 的 内 存 消耗 量 少 的 线程 的 优点 可 以 得 到 充分 地 发 挥 


。 在 上 下 文 的 切换 次 数 较 多 ， 需 要 减少 该 部 分 的 CPU 资源 占用 时 ， 
也 就 是 说 大 量 访问 的 挤占 造成 CPU 使 用 率 变 高 3， 需 要 降低 
CPU 使 用 率 时 。 与 进程 相 比 ， 线 程 间 的 上 下 文 切换 的 性 能 成 本 较 
低 ， 因 此 切换 到 该 模式 可 以 降低 CPU 的 负载 

















[= 

















3 上 下 文 切换 次 数 可 以 通过 sar -c 命令 来 查询 。 


一 个 客户 端 对 应 一 个 进程 /线程 





prefork 和 worker 的 共同 点 是 Apache 对 于 来 自 客 户 问 的 每 个 请 求 ， 都 会 
分 配 一 个 进程 或 线程 来 进行 处 理 。 也 就 是 说 ， 如 果 同 时 有 十 个 客户 端 发 
出 请 求 ， 就 会 分 配 十 个 进程 或 十 个 线程 来 进行 响应 4。 





























4 基于 此 模式 ， 在 Apache 运行 第 三 方 的 应 用 程序 时 ， 该 应 用 程序 的 开发 者 可 以 更 加 容易 地 进 
行 开发 工作 。 











能 够 同时 生成 多 少 进程 /线程 决定 了 Apache 的 处 理性 能 ， 因 此 需要 配 
置 一 个 最 佳 的 设 定 项 来 控制 进程 /线程 数 ， 这 也 可 以 说 是 Apache 优化 
的 关键 。 让 我 们 继续 详细 地 了 解 一 下 吧 。 





4.2.4 httpd.conf 的 配置 


httpd.conf 的 配置 将 决定 Apache 的 性 能 ， 特 别 会 对 “能 够 同时 处 理 的 请 
求 数 ?产生 影响 ， 下 文 将 进行 详细 讲解 。 


Apache 的 安全 闪 MaxClients 


由 于 Web 服务 器 将 受理 来 自 数 目 不 详 的 客户 端的 请 求 ， 因 此 需要 在 设 
计时 考量 到 : 无 论 什 么 时 候 遇 到 什么 程度 的 流量 ， 都 应 该 能 够 处 理 。 


在 此 需要 根据 负载 动态 控制 Apache 的 进程 / 线程 数 。 但 是 动态 控制 的 
结果 可 能 会 导致 生成 大 量 的 进程 /线程 ， 甚 至 会 占用 全 部 的 设备 资源 。 
因此 就 需要 设 定 MaxClients 这 个 安全 内， 来 设 定 可 以 同时 连接 的 请 求 数 
的 上 限 值 。 知 没有 MaxClients， 当 大 量 请 求 同 时 涌 来 ， 超 过 该 系统 允许 
的 请 求 数 时 ， 将 会 导致 系统 内 存 耗 尽 ， 从 而 致使 设备 死机 ， 或 者 CPU 
耗 尽 变 得 无 法 啊 应 等 致命 故障 。 


当 请 求 过 多 时 ， 可 以 将 MaxClients 设 定 为 : 
。 将 不 能 处 理 完 的 请 求 安排 在 等 候 队 列 中 等 待 一 段 时 间 
。 若 等 竺 队列 溢出 ， 对 该 请 求 返 回 错误 并 将 其 退回 到 客户 端 


以 上 禹 略 均 需 要 通过 Apache 的 安全 阀 MaxClients 实现 ， 以 避免 系统 死 
机 等 最 坏事 态 的 发 生 。 


这 个 安全 病 MaxClients 的 上 限 值 是 静态 的 数值 ， 必 须根 据 设 备 资源 进行 
手动 配置 。 调 整 该 数值 就 是 Apache 优化 的 关键 。 反 过 来 说 ， 其 他 项 目 
的 调节 对 性 能 并 没有 什么 太 大 的 影响 。 下 面 就 对 该 安全 内 MaxClients 的 
数值 调整 进行 详细 叙述 。 


在 prefork 模式 的 情况 下 














在 prefork 模式 的 情况 下 ， 配 置 项 目 相对 简单 。 安 全 网 就 是 在 
ServerLimit 和 MaxClients 这 两 个 指令 中 设 定 的 参数 。ServerLimit 及 
MaxClients 决定 了 Apache 能 够 同时 生成 的 进程 数 的 上 限 值 。 这 两 个 参 
数 原 本 的 意义 如 下 。 


。 ServerLimit : 服务 器 数量 ， 即 prefork 中 进程 数 的 上 限 

。 MaxClients : 能 同时 连接 的 客户 端 数 的 上 限 值 
但 这 对 使 用 一 个 进程 处 理 一 个 客户 端 请 求 的 prefork 来 说 ， 两 者 的 意义 
大 致 相同 3。 要 想 提 高 进程 数 的 上 限 值 ， 可 以 对 ServerLimit 和 


MaxClients 进行 配置 。 一 般 情 况 下 设 定 的 原则 是 不 能 让 MaxClients> 
ServerLimit。 























了 在 worker 模式 等 其 他 MPM 中 ， 两 者 的 区 别 具 有 意义 。 














ServerLimit 50 
MaxClients 56 





因此 可 以 像 上 面 这 样 先 配 置 ServerLimit。 上 面 所 配置 的 最 大 进程 数 〈 能 
够 同时 连接 的 客户 端的 数量 ) 为 50。 

除 此 之 外 ， 还 有 控制 进程 / 线程 数 的 MinSpareServers、 
MaxSpareServers、StartServers 等 参数 ， 由 于 这 些 项 目 对 性 能 的 影响 并 
不 是 很 大 ， 因 此 在 这 里 就 不 讲解 了 。 


这 里 还 有 个 问题 ， 即 配置 该 ServerLimit、MaxCjlients 时 ， 有 具体 将 数值 设 
置 为 多 少 才 好 呢 ? 当然 我 们 不 能 仅 赁 感觉 来 设 定 这 些 参数 ， 而 要 通过 


。 服务 器 所 安装 的 物理 内 存 的 容量 
。 单位 进程 的 平均 内 存 消 耗 量 
这 两 点 进行 估算 ， 以 合理 配置 可 以 生成 多 少 进程 。 


第 一 点 通过 得 看 硬件 的 详细 说 明 即 可 得 知 ， 或 者 也 可 以 通过 free 等 命 
令 进 行 查 看 。 





但 第 二 点 ， 即 进程 占用 的 内 存 大 小 要 如 何 查看 呢 ? 虽然 通过 ps 和 top 
也 能 确认 ， 但 是 这 里 还 是 从 proc 文件 系统 来 得 看 吧 。 在 Linux 中 ， 通 
过 /proc/< 进 程 的 PID>/status 就 可 以 看 到 进程 的 内 存 使 用 量 详情 。 关 
于 这 些 项 目的 意义 ， 请 参考 内 核 源 代码 的 附属 文件 


(Documentation/filesystem/proc.txt) 。 


在 图 4.2.3 的 摘要 中 ，VmHWM 是 该 进程 实际 使 用 的 内 存 空间 的 大 小 。 
图 4.2.3 的 例子 是 和 mod_per 模块 一 起 被 作为 AP 服务 器 使 用 的 Apache 

统计 ， 可 以 了 解 到 目前 所 使 用 的 物理 内 存 不 足 100MB。VmPeak 和 

2 是 虚拟 内 存 上 的 空间 ， 在 物理 内 存 上 所 对 应 的 空间 由 VmHWM 
站 示 。 





% cat /proc/23812/status 
Name: httpd 

State: S (sleeping) 

< 中 间 省 略 > 

VmPeak : 342544 KB 
VmSize: 341636 


VmLck : 
VmHWM: < 进程 实际 使 用 的 物理 内 存 区 域 的 大 小 























VmRSS: 
VmData: 
Vmstk : 
VmEXe : 
VmLib : 
VmPTE : 
Threads : 
< 以 下 省 略 > 





图 4.2.3 ”进程 的 内 存 使 用 量 等 摘要 


从 VmHWM 的 数值 可 以 得 知 httpd 各 进程 的 VmHWM 平均 值 。 例 如 图 
4.2.3 的 例子 就 表示 : 


。 安装 了 4GB 的 内 存 容量 
。 每 个 httpd 进程 的 内 存 使 用 量 为 100MB 


。 操作 系统 的 保留 内 存 为 512MB 


。4GB—512MB = 3.5GB -3,500/100 一 35 
按照 以 上 逻辑 ， 可 以 将 MaxClients 设置 为 35。 


但 是 ， 仅 这 些 判断 材料 还 不 够 。Linux 为 了 节约 物理 内 存 ， 在 父 进程 和 
子 进 程 之 间 还 共享 了 一 部 分 内 存 。 考 虑 这 个 共 胖 部 分 的 内 存 ， 还 可 以 配 
置 更 大 的 数值 。 


父子 进程 共享 内 存 的 写 时 复制 技术 


所 有 用 户 进程 都 是 从 其 他 某 个 进程 fork 生成 的 ， 即 所 有 进程 都 存在 有 父 
进程 。 在 prefork 模式 的 Apache 下 ， 首 先 启动 某 个 httpd 父 进 程 ， 然 后 
该 进程 再 生成 多 个 httpd 子 进 程 。 


在 使 用 fork 生成 进程 的 情况 下 ， 父 子 进 程 在 不 同 的 内 存 空间 运作 ， 彼 此 
互 不 干扰 。 为 了 实现 独立 的 内 存 空 间 ， 可 以 使 用 fork 从 父 进程 复制 整个 
内 存 的 内 容 到 子 进程 ， 但 是 这 个 复制 处 理 的 成 本 非常 高 。 


Linux 操作 系统 中 ， 在 进行 fork 操作 后 ， 被 映射 到 虚拟 内 存 空间 的 物理 
内 存 空间 在 不 被 复制 的 情况 下 由 父子 进程 共 诗 。 该 共享 空间 是 通过 分 别 
准备 父子 进程 所 需 的 虚拟 内 存 空间 ， 并 从 各 目的 虚拟 内 存 空间 映射 同样 
的 物理 内 存 空间 来 实现 的 (图 4.2.4) 。 若 父 进程 或 子 进程 对 虚拟 内 存 
进行 号 入 ， 那 么 进行 该 写 入 的 空间 融 不 能 再 继续 被 共 音 ， 这 时 父子 进程 
才 分 别 拥 有 了 映射 到 该 区 域 的 实际 的 物理 空间 。 





























父 进程 物理 内 存 
| 共享 | 
全 仅 从 父 进程 查看 | 





物理 页 面 
发 生 内 存 写 入 操作 
更 新 的 页 面 
子 进程 的 虚拟 空间 子 进程 
fork() 之 后 父子 进程 映射 同一 仅 限 已 更 新 的 地 方 映 射 独立 的 
物理 内 存 空间 内 存 空 间 


图 4.2.4 虚拟 内 存 的 写 时 复制 


有 反 过 来 说 ， 没 有 进行 写 入 的 内 存 空间 能 永远 被 共 圣 ， 因 此 就 可 以 避 开 内 
存 上 的 页 面 重复 以 更 加 有 效 地 利用 内 存 。 


该 结构 被 称 为 “ 写 时 复制 技术 ”(Copy on Write) ， 即 “在 写 入 时 才 进 行 
复制 ”的 意思 。 也 可 以 理解 为 fork 时 内 存 复制 的 延迟 处 理 。 


碍 看 写 时 复制 时 共 孚 的 内 存 大 小 


要 配置 MaxClients， 还 需要 考虑 在 实际 使 用 的 内 存 区 域 中 ， 父 子 进程 共 
诗 的 物理 内 存 空间 的 大 小 。 共 至 内 存 空间 可 以 通过 /proc/< 进 程 的 
PID>/smaps 的 数据 碍 看， 但 在 数据 量 很 多 时 ， 调 碍 将 变 得 比较 困难 。 
在 此 制作 了 调查 共享 内 存 大 小 的 Perl 脚本 (代码 清单 4.2.1) 六。 提交 动 
态 参 数 一 一 进程 的 ID， 就 可 以 查看 该 进程 的 共享 内 存 的 大 小 。 图 4.2.5 
古 与 pgrep 配合 使 用 所 输出 的 数据 。 


| 16 在 Linux 中 执行 该 Perl 脚本 需要 另外 安装 Smaps。 




















代码 清单 4.2.1 shared_memory_size.pl 


#!/usr/bin/env perl 


Use strict; 
use warnings; 
use Linux: :Smaps; 


@ARGV or die "usage: $0 [pid ...]”; 
print "PID\tRSS\tSHARED\n"; 
for my $pid (@ARGV) { 


my $map = Linux::Smaps->new($pid); 
unless ($map) { 


warn $1; 
next; 
} 
printf 
"%d\t%d\t%d (%d%%)\n", 
$pid, 


$map->rss, 
$map->shared dirty + $map->shared clean, 
int((($map->shared dirty + $map->shared clean) / $map->rss) * 160) 





% shared memory_size.pl “pgrep httpd 
PID RSS SHARED 

248067 69452 66632 (95%) 

24869 76996 55216 (71%) 


24816 86812 54292 (67%) 
24811 77188 54236 (76%) 
24812 79268 5434@ (68%) 
24813 76668 55492 (72%) 
< 以 下 省 略 > 





图 4.2.5 运行 实例 


显示 的 内 存 大 小 的 单位 是 KB (Kilobyte) 。RSS 是 整个 进程 分 配 的 内 存 
大 小 ，SHARED 是 其 中 父子 进程 共享 的 空间 的 大 小 。 这 里 的 70% 左右 
的 数字 是 父子 进程 所 共享 的 内 存 空 间 的 比例 。 


另外 在 写 时 复制 技术 机 制 中 ， 随 着 时 间 的 流逝 ， 该 共享 的 比例 会 不 断 下 
降 。 局 动 httpd 之 后 ， 所 输出 的 共享 比率 的 数字 目 然 会 升 高 ， 因 此 该 数 











值 并 没有 很 大 的 参考 价值 。MaxClients 的 参数 的 设 定 原则 是 能 让 系统 稳 
定 运行 ， 不 发 生 大 的 波动 。 因 此 可 以 试 着 发 出 一 定数 量 的 请 求 ， 采 用 系 
统 相 对 稳定 时 的 数值 即 可 。 然 后 考虑 之 前 估算 过 程 中 父子 进程 所 共享 的 
内 存 大 小 ， 就 会 得 出 以 下 结论 : 

安装 了 4GB 内 存 的 内 存 容量 

每 个 http 进程 的 内 存 使 用 量 为 100MB 

其 中 70% 被 父子 进程 共享 ， 每 个 子 进程 的 内 存 使 用 量 为 30MB 
操作 系统 的 保留 内 存 为 512MB 

4GB 一 512MB = 3.5GB -, 3,500/30 二 116.66 


因为 平均 内 存 使 用 量 和 共享 紊 只 是 大 致 计算 出 来 的 ， 所 以 实际 上 配置 为 
100 左右 就 行 了 。 

MaxRequestsPerChild 

在 这 里 做 一 些 补 充 。 基 于 写 时 复制 的 内 存 共 译 ， 共 享 率 会 随 着 时 间 的 流 


逝 而 降低 。 这 样 的 话 ， 在 Web 服务 器 这 样 持续 运作 的 软件 中 ， 最 终 大 
部 分 的 空间 都 将 被 持续 挤占 而 不 能 被 共享 。 

Apache 中 会 定期 结束 子 进程 并 建立 新 的 子 进程 ， 基 于 该 方法 可 以 避免 
上 述 事 态 的 发 生 。 和 鉴于 新 建立 的 子 进 程 是 通过 父 进 程 的 fork 建立 的 ， 因 
此 在 建立 子 进程 时 ， 可 以 将 内 存 中 的 内 容 完 整地 返回 到 父 进程 所 关联 的 
子 进程 上 。 


在 此 可 如 下 配置 MaxRequestsPerChild 指令 的 参数 : 


MaxRequestsPerChild 1624 


这 里 设 定 了 每 个 进程 将 会 处 理 1,024 个 请 求 ， 该 进程 处 理 完 第 1,024 次 
的 请 求 之 后 就 会 自动 结束 ， 父 进程 会 在 此 建立 新 的 子 进程 。 

通过 合理 配置 MaxReqeustsPerChild 的 参数 ， 还 可 以 避免 使 用 mod_perl 
及 mod_php 模块 运行 的 应 用 程序 引起 内 存 泄漏 ， 这 是 发 生 内 存 黑洞 持 














续 消 耗 内 存 时 的 有 效应 急 措施 。 

在 会 接收 到 大 量 请 求 的 大 型 服务 器 中 ， 如 果 MaxRequestsPerChild 的 数 
值 太 小 ， 就 会 频繁 重复 进行 进程 的 建立 和 结束 ， 因 此 可 能 需要 适当 增加 
该 数值 的 大 小 。 相 反 ， 在 请 求 不 多 的 服务 器 上 ， 即 使 将 
MaxRequestsPerChild 的 数值 设置 得 比较 小 ， 此 负担 也 几乎 不 存在 。 可 


以 在 综合 考虑 CPU 负载 状况 及 进程 所 占用 的 内 存 空间 大 小 等 基础 上 ， 
设置 出 恰当 的 数值 。 


在 worker 模式 的 情况 下 
worker 是 多 进程 和 多 线程 的 混合 型 模式 。 
。 在 一 个 进程 中 生成 多 个 线程 ， 一 个 客户 端 交 由 一 个 线程 进行 处 理 
。 生成 多 个 进程 
具体 行为 如 上 。 因 此 ， 进 程 数 x 每 个 进程 的 线程 数 这 一 数量 的 线程 将 
并 发 运作 。 进 程 的 部 分 使 用 与 prefork 类 似 的 方法 进行 优化 。 而 在 对 线 
程 部 分 进行 优化 时 ， 则 需要 坚持 以 下 原则 : 


线程 与 进程 不 同 ， 线 程 间 共 享 全 部 的 内 存 空间 。 不 需要 考虑 像 写 
时 复制 那样 的 情况 


。 每 一 个 线程 需要 最 大 不 超过 8,192KB 的 内 存 作 为 栈 空间 


1 这 是 Apache 的 规格 。 在 Linux 环境 中 ， 线 程 的 栈 大 小 由 系统 指定 。 此 处 的 8,192KB 取决 于 
系统 ， 有 具体 可 以 通过 ulimit -s 命 令 进行 确认 。 
























































上 Worker 模式 的 情况 下 ， 除 ServerLimit、MaxClients 的 参数 之 外 ， 还 
要 调整 ThreadLimit 和 ThreadsPerChild。worker 模式 下 的 配置 需要 了 
解 : 





MaxClients : 可 以 在 同一 时 间 连 接 的 客户 端 数 ， 也 就 是 进程 数 X 
线程 数 


ServerLimit : 最 大 进程 数 


ThreadLimit : 每 个 进程 的 最 大 线程 数 





。 ThreadsPerChild : 每 个 进程 的 最 大 线程 数 〈 与 ThreadLimit 大 致 
相同 ) 


MaxClients 是 系统 能 够 容许 的 客户 端 数量 ， 通 过 与 其 他 参数 配合 设 定 ， 
可 以 把 探 进 程 和 线程 同时 处 理 的 客户 端 数量 。 确 定 MaxClients 后 再 确定 
ThreadsPerChild 后 ， 就 能 进一步 确定 所 需 的 进程 数 了 。 例 如 在 
MaxClients 为 4096，ThreadsPerChild 为 128 时 ， 


e。 MaxClients 4096/ThreadsPerChild 128 二 32 进程 





因此 ， 需 要 经 和 常 调整 以 满足 ServerLimit > 
MaxClients/ThreadsPerChild 这 个 关系 。 当 关系 不 满足 时 ， 这 一 情 
况 将 会 被 记录 在 错误 日 志 中 。 把 以 上 各 项 加 以 配置 ， 即 : 


ServerLimit 
ThreadLimit 


MaxClients 
ThreadsPerChild 





至 于 将 各 参数 设 定 为 多 少 ， 基 本 上 和 prefork 的 情况 一 样 ， 都 要 在 综合 
Oo 内 存 容量 及 每 个 线程 的 内 存 消 耗 量 的 基础 上 进行 计 


知 要 查看 实际 在 系统 上 运行 了 多 少 条 线程 ， 可 以 在 ps 命令 上 使 用 -L 选 
项 。 正 如 在 4.1 节 中 讲解 的 那样 ， 添 加 -L 参 数 可 以 输出 NPTL 的 线程 ， 
只 要 数 数 具体 有 多 少 条 就 OK 了 。 

在 系统 超载 的 情况 下 ， 改 变 MaxClients 前 需要 了 解 ..….. 

之 前 提 到 了 “问题 只 是 在 Web 服务 器 上 无 法 啊 应 的 问题 表现 得 很 明显 ， 


但 根本 原因 未 必 是 Web 服务器”。 其 实 表面 上 的 问题 就 是 MaxClients 到 
达 了 了 上限。 错误 日 志 中 会 有 如 下 记录 : 


[Wed Sep 65 17:36:43 2667] [error] server reached MaxClients setting, consi 


在 达到 MaxClients 而 不 能 再 生成 进程 、 线 程 这 样 的 状态 下 ， 只 不 过 会 警 
告 “ 发 生 了 某 些 问题 ”。 虽 然 也 有 可 能 是 连接 数 过 多 造成 MaxClients 达到 




















上 限 ， 但 也 有 可 能 存在 其 他 的 原因 。 


例如 ， 在 将 Apache 作为 AP 服务 器 使 用 时 ， 假 设 其 上 运行 的 应 用 程序 
要 连接 到 数据 库 服 务 器 (图 4.2.6) 。 







@ 请 求 请 求 全 因为 其 他 客户 端 耗 尽 了 
Web 服 务 器 上 的 进程 ， 
所 以 客户 端 3 不 能 进行 
连接 串 在 日 志 上 记录 
MaxClients 


@ 数据 库 超载 造成 
阻塞 。 不 能 向 客 
户 端 1 返回 应 答 上 


@@ 数据 库 超 载 造 成 阻塞 。 不 能 向 
客户 端 2 返回 应 答 


尽管 实际 原因 是 数据 库 超载 ， 但 表现 出 来 的 问题 却 是 
无 法 连接 Web 服务 器 


图 4.2.6 原因 为 数据 库 超载 的 情况 示例 
如 打数 据 库 超载 ， 应 用 程序 将 阻塞 等 竺 来 上 自 数 据 库 的 应 答 
。 结果 httpd 进程 /线程 变 为 被 阻塞 的 状态 


因为 被 阻塞 的 进程 /线程 不 能 处 理 来 自 其 他 客户 端的 请 求 ， 于 是 
Apache 寻找 空闲 进程 /线程 


。 如 条 没有 空闲 进程 /线程 ， 则 生成 新 的 进程 /线程 


。 如 打数 据 库 仍旧 超载 ， 新 生成 的 进程 /线程 也 会 在 处 理 随 后 的 客 
户 端的 请 求 的 过 程 中 被 阻 夺 


。 最 终 MaxClients 到 达 上 限 ， 无 法 生成 新 的 进程 /线程 
。 将 该 事件 记载 到 错误 日 志 中 
在 这 种 情况 下 ， 如 何 调整 Apache 配置 都 没有 意义 。 即 使 增加 


MaxClients， 未 来 在 客户 站 发 出 请 求 时 也 会 被 阻 竖 ， 状 况 依然 得 不 到 改 
普 。 所 以 还 需要 回 到 根本 原因 ， 解 决 数据 库 超载 的 问题 。 








4.2.5 Keep-Alive 


除 MPM 模块 的 参数 以 外 还 有 影响 性 能 的 参数 ， 比 如 “Keep-Alive” 的 配 
置 。Keep-Alive 是 在 处 理 完 来 自 特定 客户 端的 请 求 之 后 和 暂时 保持 连接 ， 
以 备 处 理 来 和 目 相同 客户 端的 其 他 文件 的 请 求 的 功能 。 合 理 设置 后 ， 客 户 
端 无 需 重 复 连 接 /上 断 开 ， 仅 需 一 次 连接 就 能 下 载 多 个 文件 ， 客 户 端 / 服 
务 右 并 发 处 理 的 效率 将 会 显著 提高 。 


男 一 方面 ， 根 据 情况 的 不 同 ，Keep-Alive 也 会 导致 系 统 发 生 瓶 开 。 上 有 具体 
请 参考 2.1 节 中 有 关 反 回 代 理 的 讲解 。 


4.2.6” Apache 以 外 的 选择 


虽然 本 节 的 中 心 是 讲解 Apache， 但 是 市 面 上 有 很 多 开源 且 目 由 的 Web 
服务 器 。 虽 然 Apache 也 是 广泛 使 用 的 Web 服务器， 但 是 并 不 意味 着 必 
须 使 用 Apache。 


Apache 的 优点 之 一 就 是 内 部 完全 模块 化 的 通用 构造 ， 具 备 高 扩展 性 。 
因此 ， 包 含 第 三 方 模块 在 内 的 扩展 模块 的 开发 非常 繁 已 。 另 外 还 能 目 己 
创建 新 的 模块 ， 自 定义 Apache 的 运行 。 将 Apache 作为 超越 Web 服务 
器 的 网 络 服务 器 使 用 时 ， 比 Apache 更 能 适用 于 多 种 场景 的 服务 器 并 不 


多 见 。 


另 一 方面 ，Apache 的 性 能 怎么 样 呢 ? Apache 目前 采用 多 进程 /多 线程 
模式 。 除 此 之 外 的 网 络 服务 器 的 代表 模式 还 有 单 进程 :事件 驱动 (Single 
Process Event Driven，SPED) 模式 。 在 SPED 模式 的 服务 器 上 ， 不 是 通 
过 多 个 运行 单位 来 处 理 多 个 连接 ， 而 是 利用 系统 的 功能 ， 让 单一 进程 监 


























控 多 个 网 络 连接 的 输入 输出 事件 ， 并 结合 输入 输出 事件 将 处 理 快 速 切 
换 ， 以 实现 高 效 的 并 发 处 理 。 


单纯 从 多 线程 和 SPED 的 结构 来 看 ， 并 没有 好 坏 之 分 。 另 一 方面 ， 以 安 
装 的 广泛 上 度 来 讲 ，Apache 的 确 是 最 普及 的 Web 服务 器 。 但 在 一 个 请 求 
周期 内 ， 处 理 请 求 所 需 的 CPU 计算 量 、 内 存 消 耗 量 较 大 ， 而 有 多 少 个 
进程 / 线程， 就 会 相应 地 消耗 相当 大 程度 的 资源 ， 这 是 它 的 缺点 。 











lighttpd 
最 近 开 源 Web 服务 器 中 比较 受 欢迎 的 是 lighttpdl8。lighttpd 具备 以 下 特 


18URL http:/www.lighttpd.net/ 








。 采用 SPED， 通 过 少量 内 存 并 发 处 理 大 量 访问 ， 处 理 速 度 让 人 满 


忌 、 


虽然 相 较 于 Apache，lighttpd 的 通用 性 较 送 ， 但 是 因为 其 单位 请 
求 所 需 的 计算 量 少 ， 可 以 降低 CPU 负载 


单位 进程 的 内 存 消 耗 量 远 远 小 于 Apache 


涵盖 了 相当 于 Apache 的 核心 模块 、mod_rewrite 和 mod_proxy 模 
块 的 基本 功能 


** 支 持 FastCGI， 可 以 优化 用 Perl 及 PHP、Ruby 所 编写 的 web 应 
用 程序 ， 可 以 被 作为 AP 服务 器 使 用 


因此 lighttpd 在 大 规模 并 发 环境 中 的 运行 效果 也 很 好 。Hatena 网 站 现在 
已 经 将 一 部 分 的 Apache worker 更 换 为 了 lighttpd。 








比较 lighttpd 和 Apache， 最 显著 的 差异 是 内 存 的 消耗 量 。lighttpd 无 论 
有 多 少 连接 ， 都 能 用 一 到 几 个 进程 完成 所 有 处 理 世 。 因 为 lighttpd 是 根 
据 客 户 端 数 来 增 减 进程 / 线程 数量 的 ， 这 是 lighttpd 与 Apache 决定 性 的 
上 


2 























9 使 用 select(2)/poll(2) 和 epoll 等 的 文件 描述 符 监 控 系 统 调用 ， 实 现 多 网 络 IO 的 并 发 处 理 。 





lighttpd 适用 于 传送 大 量 静 态 文 件 。 在 需要 将 大 量 文件 返回 到 大 量 客户 
端 时 ， 也 可 以 以 最 小 限度 的 资源 消耗 去 完成 。 


当然 lighttpd 也 可 以 传送 动态 的 网 页 内 容 。 由 于 lighttpd 的 使 用 相当 简 
单 ， 因 此 有 很 多 基于 lighttpd+FastCGI 环境 ， 来 高 速 运行 用 脚本 语言 开 
发 的 Web 应 用 程序 的 事例 。 但 是 ， 在 用 lighttpd 传送 动态 内 容 时 ， 


Apachermod perl (mod_php 等 ) 与 lighttpd+FastCGI 的 组 合并 没有 显著 
的 性 能 差异 es 
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于 Apache 具备 丰富 的 API， 可 以 用 来 自 定义 应 用 程序 ， 因 此 笔者 经 常 使 用 Apache。 


虽然 这 里 没有 对 lighttpd 进行 详细 讲解 ， 但 想 以 更 少 的 资源 处 理 大 量 客 
户 端的 连接 时 ， 可 以 考虑 使 用 lighttpd。 


4.3 ”MySQL 的 调 优 诀 ? 
4.3.1 MySQL 的 调 优 诀 容 


当 数 据 库 服务 器 要 求 更 高 的 性 能 该 怎么 办 呢 ? 单刀 直入 ， 用 一 句 话 说 就 
是 “如 何 快 速 存 取 数 据 ”。 


那么 数据 库 服务 器 的 性 能 调 优 ， 也 就 是 “ 想 要 以 更 短 的 时 间 存 取 数 据 ”， 
需要 具体 考虑 什么 策略 呢 ? 这 根据 调 优 的 视角 可 以 分 为 几 类 ， 以 下 首先 
基于 调 优 的 视角 进行 简单 的 整理 。 

基于 调 优 视角 的 分 类 

首先 ， 可 以 考虑 从 以 下 几 个 视角 进行 分 类 : 

1 服务 器 方面 

2 服务 器 之 外 的 其 他 方面 

3 周边 系统 方面 

1 服务 器 方面 

第 一 个 是 “服务 器 方面 的 调 优 ?>。 说 到 服务 器 方面 的 调 优 ， 首 先 需要 了 

解 “mysqld 的 参数 优化 ”。 特 别 是 内 存 关 联 的 参数 以 及 磁盘 IO 关联 的 参 
数 是 调 优 的 关键 。 

除 mysqld 的 参数 以 外 ， 还 包括 系统 方面 的 优化 ， 例 如 : 

。 对 磁盘 WO 关联 的 内 核 参数 进行 调整 

。 合理 利用 文件 系统 及 mount ( 挂 载 ) 命令 的 选项 等 

本 节 中 也 将 其 归 类 为 服务 器 方面 的 优化 。 


参数 以 外 的 其 他 方面 的 优化 ， 还 有 "分 区 技术 ” 《Partitioning ) 。 如 果 数 
据 规模 变 大 ， 数 据 大 小 和 访问 量 增 加 ， 仪 使 用 一 台数 据 库 服务 器 通常 会 








无 法 进行 处 理 。 
于 是 ， 在 此 以 表 为 单位 分 割 数据 库 服 务 器 ， 或 者 将 表格 数据 以 主键 
(Primary Key) 等 为 单位 切 分 到 数据 库 服务 器 上 。 据 此 就 可 以 将 数据 切 
割 为 较 小 的 单位 以 便 轻 松 缓存， 通过 分 流 访 问 还 可 以 降低 单 台 服 务 器 的 
负载 。 另 一 方面 ， 由 于 需要 在 被 分 割 的 数据 库 服务 器 集群 里 查找 出 相应 
的 数据 以 供 处 理 ， 以 及 在 SQL 语句 层面 关系 表 将 不 能 被 关联 ， 因 此 在 
应 用 程序 方面 的 负载 会 有 所 增加 。 
2 服务 器 之 外 的 其 他 方面 
第 二 点 是 除 服 务 器 之 外 的 其 他 方面 的 优化 。 具 体 指 如 下 事项 : 
。 表 的 设计 
> 创建 合适 的 索引 
> 根据 需要 可 能 会 进行 非 标准 化 处 理 
。 SQL 的 优化 
> 很 好 地 使 用 索引 
-> 调整 表 关 联 的 顺序 、 方 法 
特别 是 SQL 的 优化 ， 由 于 部 分 执行 时 间 较 长 的 语句 可 以 通过 慢 但 询 记 
录 (log-slow-queries) 找 出 ， 再 通过 MySQL 的 EXPLAIN 语句 及 相关 
工具 弄 清 其 原因 ， 所 以 优化 过 程 还 是 比较 容易 的 。 
3 周边 系统 
最 后 是 “周边 系统 的 调 优 ?。 首 先 什 么 是 周边 系统 的 调 优 呢 ? 在 文章 的 开 
头 提 到 了 调 优 的 目标 是 “以 更 短 的 时 间 存 取 数 据 *。 需 要 注意 的 是 在 此 是 
以 访问 数据 库 服务 器 为 视点 的 ， 知 访问 周边 系统 存 取 数 据 的 速度 比 访问 
数据 库 服 务 器 更 快 ， 则 不 需要 特意 去 访问 数据 库 服 务 器 。 
举 个 具体 的 例子 ， 在 访问 数据 的 客户 端 和 数据 库 服 务 器 之 间 增 加 


memcached 等 缓存 服务 器 ， 这 样 就 可 以 通过 访问 缓存 服务 器 来 调用 数 
据 ， 而 不 用 去 访问 数据 库 服务 器 了 。 














说 到 RDBMS 的 优化 ， 许 多 情况 下 往往 只 会 想到 SQL 语句 和 服务 器 参 
数 的 优化 。 但 如 果 将 这 些 作为 “输入 输出 数据 的 一 个 系统 "， 将 客 尸 端 和 
数据 库 服务 器 看 作 这 个 系统 的 构成 要 系 ， 那 么 束 可 以 考虑 通过 增设 缓存 
服务 器 来 优化 该 系统 的 性 能 ， 而 并 非 改 动 具体 的 参数 。 大 家 一 定 要 具备 
这 种 宏观 的 视角 。 


本 章 接 下 来 要 处 理 的 内 容 


截 全 目前 ， 我 们 将 优化 的 视角 分 为 了 三 类 并 分 别 进行 了 讲解 ， 下 一 阶段 
将 简 述 实际 的 调 优 工 作 ， 即 发 现 瓶 颈 ,采取 各 种 集 略 消除 笨 贷 。 


上 瓶 久 的 原因 潜藏 在 各 个 地 方 。 因 此 瓶 琉 的 发 现 ， 并 不 是 单纯 的 “发 现 慢 
的 SQL 语句 就 行 了 ”， 最 好 先 以 上 述 三 个 视角 进行 宏观 的 监控 。 


虽然 这 么 说 ， 但 由 于 瓶颈 的 产生 多 起 因 于 条 件 及 RDBMS 的 用 法 问题 ， 
存在 各 种 不 同 的 情况 ， 不 能 具体 断定 “就 是 东 处 存在 问题 "。 


另外 ， 在 对 数据 库 和 表 进 行 分 区 以 及 引入 缓存 服务 器 之 前 ， 需 要 优先 研 
完 一 下 SQL 语句 的 结构 以 及 进行 参数 的 优化 ， 以 最 大 可 能 地 发 挥 数据 
库 服务 器 的 性 能 ， 如 果 这 样 还 不 能 解决 问题 ， 其 后 才 应 该 考虑 进行 分 区 
或 引入 缓存 服务 器 。 

















服务 器 (mysqld) 的 参数 调节 进行 深入 讲解 。 
本 章 中 所 讲述 的 MySQL 的 版 本 是 5.0.45。 
4.3.2 内存 相关 的 参数 优化 


在 有 关 MySQL 服务 器 的 优化 中 ， 十 分 重要 的 是 内 存 〈 绥 冲 ) 相关 的 参 
数 ， 下 面 介 绍 以 下 两 点 : 


。 优化 的 要 点 


。 由 于 这 里 的 数据 库 服 务 器 是 在 内 存 为 4GB 的 情况 下 进行 相应 的 配 
置 设 定 的 ， 因 此 具体 数据 仅 供 参 考 


绥 冲 的 种 类 .…… 优 化 时 的 注意 事项 @ 





首先 需要 注意 的 地 方 是 ，MySQL 中 为 了 提高 性 能 开辟 了 暂时 储存 数据 
的 内 存 空间 ， 通 常 被 称 为 绥 冲 ， 绥 冲 有 以 下 两 个 类 型 : 


。 个 局 缓冲 (Global Buffer) 
。 线程 缓冲 (ThreadBuffer) 


所 谓 全 局 缓冲 ， 是 mysqld 内 部 的 唯一 一 个 缓冲 。 相 应 的 ， 线 程 缓冲 则 
古 针 对 每 个 线程 (连接 ) ， 都 确保 一 个 缓冲 。 


优化 参数 时 ， 需 要 认识 到 全 局 缓冲 和 线程 缓冲 的 差异 。 这 是 因为 ， 如 果 
给 线程 缓冲 分 配 过 多 的 内 存 ， 那 么 一 旦 连接 增加 ， 内 存 很 快 就 会 不 足 。 


不 能 分 配 太 多 ..…... 优化 时 的 注意 事项 @ 

给 缓冲 分 配 的 内 存 越 大 ， 性 能 就 越 高 。 话 虽 如 此 ， 如 果 分 配 的 数值 超过 
人 造成 频繁 访问 交换 区 ， 实 际 性 能 反而 会 降 
比 起 在 MySQL 层面 进行 参数 优化 ， 在 某 些 情况 下 ， 通 过 使 用 MyISAM 
的 数据 引擎 ， 将 数据 库 文件 放 到 系统 的 磁盘 缓冲 上 ， 这 样 更 能 提高 
MySQL 表 的 性 能 。 

内 存 的 相关 参数 

内 存 的 相关 参数 如 表 4.3.1 所 示 。 


表 4.3.1 内 存 相 关 的 参数 





innodb_buffer pool_size 


j 途 innoDB 缓 冲 区 ， 用 来 存放 数据 和 索引 
缓冲 类 型 全 局 缓冲 ”参考 值 512MB (一 般 设 置 为 机 器 内 存 的 50%-80%) 

















因为 是 全 局 缓冲 ， 所 以 推荐 分 配 得 宽裕 一 些 
innodb_additional _ mem_pool_size 


用 途 innoDB 内 存 池 ， 存 放 着 各 种 内 部 使 用 的 数据 
缓冲 类 型 全 局 缓冲 ”参考 值 20MB 
没有 大 量 分 配 的 必要 。 不 足 时 会 通过 错误 日 志 发 出 警告 ， 届 时 再 增加 也 没有 问题 



































innodb_log_buffer_size 

















途 InnoDB 日 志 绥 冲 区 

缓冲 类 型 全 局 缓冲 ”参考 值 16MB 

基本 上 是 8MB， 最 多 为 64MB， 不 需要 太 大 。 绥 冲 Buff 是 每 当 数 据 库 事务 被 提交 
CCommit) 时 进行 的 ， 几 乎 每 秒 都 会 发 生 缓存 到 磁盘 的 动作 ， 因 此 建议 将 所 需 的 其 

他 参数 分 配 得 大 一 些 


innodb_log file_size 


用 途 InnoDB 日 志文 件 ， 存 储 在 磁盘 上 。 虽 然 它 不 是 内 存 ， 但 却 是 重要 的 优化 参数 
缓冲 类 型 --- ”参考 值 128MB 
数值 越 大 性 能 越 高 。 详 情 请 参照 正文 


sort_buffer_size 


] 途 被 用 于 ORDER BY 和 GROUP BY 的 内 存 空间 
缓冲 类 型 线程 缓冲 ”参考 值 2MB 
由 于 是 线程 缓冲 ， 因 此 要 注意 过 度 增 加 会 导致 内 存 不 足 。 笔 者 建议 设 为 2MB 或 4MB 


read_rnd_buffer_size 


用 途 在 排序 后 读 取 结果 数据 时 使 用 的 缓冲 区 。 因 为 磁盘 IO 会 有 所 减少 ， 所 以 可 以 提 
高 ORDER BY 的 性 能 

绥 冲 类 型 线程 缓冲 ”参考 值 1MB 
因为 这 个 也 是 线程 缓冲 ， 所 以 也 需要 注意 不 要 分 配 过 多 。 笔 者 建议 设 为 512KB 一 
2MB 















































































































































join_buffer_size 

















] 途 不 使 用 索引 的 表 关 联 时 使 用 的 内 存 空间 
缓冲 类 型 线程 缓冲 ”参考 值 56KB 
线程 缓冲 。 由 于 仅 在 没有 索引 时 才 进 行 关 联 操作 ， 因 此 从 性 能 提高 的 观点 上 对 该 关 
联 表 的 期 望 不 大 ， 所 以 该 参数 不 需要 很 大 


read_buffer_size 


j 途 对 数据 表 顺 序 扫描 的 绥 冲 大 小 
缓冲 类 型 线程 缓冲 ”参考 值 1MB 
如 果 这 里 也 考虑 性 能 ， 就 应 该 使 用 类 似 索引 的 查询 ， 因 此 不 需要 那么 大 的 空间 


key_buffer_size 


用 途 缓存 MYISAM 的 键 〈 索 引 ) 的 内 存 空间 

缓冲 类 型 全 局 缓冲 ”参考 值 256MB 

因为 是 全 局 缓冲 ， 所 以 为 了 提高 性 能 可 以 分 配 多 一 些 。 如 果 不 〈 太 ) 使 用 
MyISAM， 可 以 将 该 值 设置 得 小 一 些 ， 以 将 内 存 分 配给 其 他 参数 


myisam_sort_buffer_size 


途 MyISAM 中 以 下 情况 的 索引 排序 时 所 使 用 的 缓冲 空间 
。REPAIR TABLE 。CREATE INDEX 。ALTER INDEX 
缓冲 类 型 线程 缓冲 ”参考 值 1MB 

因为 通常 在 语句 DML) 中 不 大 使 用 ， 所 以 不 需要 那么 多 

















































































































下 面 对 表 4.3.1 进行 补充 说 明 。 首 先 ， 关 于 innodb_ log _file_size，mysqld 


在 innodb_ log_file 存 满 时 ， 仪 将 内 存 上 更 新 的 innodb_buffer_pool 部 分 
写 入 磁盘 上 的 InnoDB 数据 文件 。 因 此 ， 如 果 只 增加 
innodb_buffer_pool_size， 而 不 同时 调整 这 个 innodb log file_size 的 话 ， 
innodb_log_file_size 马上 就 会 汶 出 ， 进 而 就 不 得 不 频繁 地 进行 mnoDB 
数据 文件 的 写 入 人 处理， 最 终 就 会 导致 性 能 下 降 。 


innodb_log_file_size 的 数值 要 设置 为 1MB 以 上 ，32bit 的 设备 - 情况 下 
必须 设置 为 4GB 以 下 ， 具 体 在 MySQL AB 文档 中 有 详细 描述 


这 里 还 有 一 个 上 限 。 虽 然 innodb_log file 只 设置 
innodb_log_files_in_group 的 数量 (默认 2) ， 但 要 确保 
innodb_ log _file_sizexinnodb_log _files_in_group 不 超过 
innodb_buffer_ pool_size。 


综 上 ， 可 以 得 出 如 下 结论 : 


1MB = innodb log file size < MAX innodb log file size < 
4GB 





innodb buffer pool size 
MAX_innodb log file size 二 一 一 一 一 一 一 一 一 一 一 一 一 一 
innodb log files in group 


其 他 必须 注意 的 是 ，innodb_log_file_size 的 值 越 大 ，InnoDB 的 裔 溃 恢 复 
所 需 的 时 间 就 越 长 。 


其 次 ， 这 里 也 对 表 4.3.1 中 的 key_buffer_size 稍 作 补充 说 明 。 关 于 Key 
Buffer 的 命中 率 ， 可 以 使 用 SHOW STATUS 的 数值 ， 用 下 面 的 公式 算出 : 


Key Buffer 的 命中 率 = 166- (key_reads/key_read_requestsx166) 


4.3.3 ”内 存 相 关 的 检查 工具 ..…..mymemcheck 


最 后 介绍 一 下 笔者 正在 使 用 的 自制 工具 Imymemcheck。 mymemcheck 可 
以 基于 my.cnf 或 者 SHOW VARIABLES 的 结果 ， 进 行 以 下 三 个 方面 的 检 


。 至 少 所 需要 的 物理 内 存 大 小 





。IA-32 Linux 中 堆 的 大 小 范围 

。 innodb_log_file_size 的 最 大 值 

以 上 都 是 MySQL AB 的 文档 中 所 罗列 的 事项 ， 由 于 内 存 相 关 的 参数 也 
有 彼此 相关 的 ， 不 注意 的 话 配置 的 数值 会 相互 和 矛盾。 因此， 在 变更 参数 
时 ， 可 以 使 用 该 mymemcheck 工具 确认 所 设置 的 数值 是 否 合理 。 


运行 结果 如 图 4.3.1 所 示 。 








$ ./mymemcheck my .cnf 


[ minimal memory |] 
ref 
* [High Performance MySQL」，Solving Memory Bottlenecks, p125 


global buffers 


key_buffer_size 268435456 256.668 [M] 
innodb_ buffer pool size 536876912 “512.666 [M] 
innodb_ log buffer size 16777216 16.066 [M] 
innodb additional mem pool size 20971526 26.6066 [M] 
net_buffer_length 16384 16.6066 [K] 


thread buffers 


sort buffer size 2697152 2.066 [M] 
myisam_sort_buffer_size 1648576 1624.666 [K] 
read buffer size 1648576 1624.666 [K] 
join buffer_size 262144 ”256.666 [K] 
read_ rnd buffer size 1648576 1624.666 [K] 
max_connections 250 


global buffers + (thread buffers* max_connections) 
8436071488 + 5565624* 250 
2219327488 (2.667 [G]) 


min_memory_needed 


[ 32bit Linux x86 limitation ] 
ref 
* http://dev.mysql.com/doc/mysql/en/innodb-configuration.html 


* need to include read rnd buffer. 
* no need myisam sort buffer because allocate when repair, check alter. 


2G > process heap 
process heap = innodb buffer pool + key_buffer 


+ max_connections* (sort buffer + read buffer + read_rnd_buf 
+ max_connections* stack size 
= 959536876912 + 268435456 
+ 250* (2697152 + 1048576 + 1648576 ) 
+ 250* 262144 
= 1919418368 (1.788 [G]) 


2G > 1.788 [G] ... safe 


[ maximum size of innodb log file size | 
ref 
* http://dev.mysql.com/doc/mysql/en/innodb-start.html 


1MB < innodb log file size“ MAX innodb log file size < 4GB 


MAX_innodb log file size = innodb buffer pool size* 1/innodb log files in gl 
= 53687086912* 1/2 
= 268435456 (256.666 [M]) 


innodb log file size < MAX innodb log file size 
134217728 < 268435456 
128.666 [M] < 256.666 [M] ... safe 





图 4.3.1 mymemcheck 的 运行 实例 


第 5 划 局 效 运行 一 一 确保 服务 的 
稳定 提供 
5.1 服务 状态 监控 Nagios 


5.1.1 稳定 的 服务 运营 与 服务 状态 监控 


服务 状态 监控 是 稳定 的 服务 运营 所 不 可 或 缺 的 。 即 便服 务 器 已 经 做 了 元 
余 的 处 理 ， 由 于 一 时 跑 忽 ， 或 者 见 余 的 设备 出 现 故 障 ， 都 会 造成 很 严重 
的 情况 。 硅 故障 再 度 出 现 ， 服 务 就 很 有 可 能 停止 运作 。 当 系统 的 傈 个 部 
0 时 ， 通 过 服务 状态 监控 及 时 知晓 ， 对 维持 服务 的 稳定 运行 是 
很 重要 的 。 


Nagios! 是 著名 的 开源 服务 状态 监控 工具 。 由 于 Nagios 配置 灵活 ， 因 此 
在 世界 范围 内 被 广泛 使 用 。 














1URL http://www.nagios.org/ 


5.1.2 ”状态 监控 的 种 类 


通常 情况 下 ， 服 务 状态 监控 并 不 仅仅 是 监控 服务 的 茶 个 功能 是 否 正常 运 
行 ， 还 包含 确认 负载 状态 等 方面 。 服 务 的 状态 监控 可 分 为 以 下 三 类 : 


1 主机 或 服务 的 运行 状态 等 网 络 服务 存活 状态 的 监控 
2 主机 的 CPU 占用 率 或 服务 的 吞吐 量 等 负载 状态 的 监控 


3 在 一 段 时 间 内 (一 个 月 或 是 一 年 ) 服务 正常 运行 的 时 间 所 占 的 比 
例 ， 即 可 用 率 的 统计 


1 存活 状态 的 监控 
存活 状态 的 监控 是 指 确认 某 个 功能 是 人 否 可 用 ， 是 基本 的 状态 监控 操作 。 





比如 ， 通 过 使 用 ping 指令 确认 主机 是 否 在 正常 运作 、 服 务 的 TCP 连接 
古 否 可 用 、 目 标 服 务 八 是 售 能 够 进行 基本 的 协议 处 理 ， 从 而 检查 服务 状 
态 是 人 否 正 负 。 

如 打通 过 ping 指令 没有 接 到 目标 服务 器 的 应 答 ， 或 者 TCP 连接 不 可 
用 、 无 法 进行 基本 的 协议 处 理 ， 束 能 断定 目标 主机 或 服务 已 经 处 于 不 可 
用 的 状态 ， 这 时 监控 系统 会 及 时 通知 运 维 人 员 。 运 维 人 员 接 到 通知 后 ， 
人 
时 o 








在 被 监控 的 服务 已 经 进行 了 宛 余 处 理 的 情况 下 ， 状 态 监 控 就 并 不 仅 针 对 
提供 服务 的 主机 ， 通 过 同时 监控 经 过 宛 余 处 理 的 VIP (虚拟 IP 了 地 

址 ) ， 就 可 以 从 最 终 用 户 的 视角 来 判断 服务 是 否 还 在 正常 运作 。 这 样 当 
故障 发 生 时 ， 就 能 轻易 判断 出 经 过 宛 余 处 理 的 主机 的 某 处 故障 会 不 会 影 
啊 到 服务 ， 是 否 会 对 服务 的 正常 提供 造成 影响 。 


在 图 5.1.1 的 例子 中 ， 即 便服 务 器 B 出 现 了 故障 ， 负 载 均 衡器 也 会 自动 
将 请 求 切换 到 服务 器 A， 服 务 丝毫 不 受 影响 。 在 这 样 的 架构 下 ， 不 仅 要 
监控 服务 器 A 与 服务 器 B， 还 需要 将 负载 均衡 器 的 VIP 也 列 为 监控 对 
象 ， 据 此 来 确认 是 否 会 对 服务 造成 影响 ， 并 判断 故障 的 紧急 程度 。 
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一 一 Jo 请求 
-…-- 监控 


图 5.1.1 经 过 元 余 处 理 的 情况 下 的 监控 


2 负载 状态 的 监控 


负载 状态 的 监控 是 指 检查 是 否 存在 一 些 情况 “ 虽 不 会 令 服务 停止 运作 ， 
但 会 对 服务 的 运行 带 来 过 大 压力 ”， 是 一 种 非常 实用 的 监控 。 


为 了 监控 负载 状态 ， 可 以 从 统计 目标 主机 的 CPU 负载 、 当 前 系统 中 等 
符 进 程 的 数量 等 信息 者 手 ， 判 断 目标 主机 的 负载 是 人 否 已 经 达到 了 腊 季 的 
程度 “。 另 外 ， 还 可 以 统计 在 提供 服务 的 进程 的 请 求 队列 中 等 待 的 请 求 
数 ， 以 及 请 求 的 啊 应 时 间 ， 来 监控 在 所 允许 的 服务 等 级 的 情况 下 ， 疝 该 
服务 的 进程 友 出 的 请 求 是 否 能 够 得 到 处 理 。 大 是 出 现 了 等 竺 进程 数 寞 营 
多 ， 或 啊 应 时 间 过 长 的 情况 ， 那 就 能 断定 主机 或 服务 已 经 出 现 了 负载 过 


高 的 问题 。 

















“关于 统计 负载 ， 在 4.1 节 有 详细 说 明 。 





负载 过 高 的 原因 可 分 为 下 列 三 种 情况 : 
@ DoS 攻击 等 造成 的 异常 请 求 导致 负载 过 高 
四 Slashdot 效应 3 等 造成 的 突 发 请 求 导 致 负载 过 高 


3Slashdot 效应 指 的 是 当 一 个 受众 广泛 的 站 点 引荐 了 另 一 个 小 众 的 网 站 后 ， 该 小 众 网 站 访问 人 
数 激 增 的 情况 。 














@ 纯粹 因为 服务 太 受 欢迎 ， 请 求 数 平 稳 提 升 而 导致 负载 过 高 


因此 ， 负 载 过 高 的 应 付 办 法 也 比较 复杂 ， 需 要 针对 各 种 不 同 的 负载 问 

题 ， 找 到 具体 的 解决 方法 。 例 如 ， 在 @ 的 情况 下 ， 要 提前 预知 流量 异 
常 的 情况 ， 并 及 时 截 拦 请 求 ， 在 @ 的 情况 下 ， 需 要 设置 高 速 绥 存 ， 而 
在 像 @ 那样 因为 服务 自身 太 受 欢迎 而 请 求 数 增加 的 情况 下 ， 就 需要 考 
虑 扩充 主机 等 了 。 

通过 监控 负载 状态 ， 能 够 检测 出 “服务 能 够 使 用 ， 但 是 运行 较 慢 ?的 情 

况 ， 但 这 种 情况 单纯 通过 存活 状态 的 监控 是 检测 不 出 来 的 。 因 此 需要 对 
这 种 情况 加 以 应 对 ， 以 维持 展 好 的 系统 啊 应 。 


3 可 用 率 的 统计 

















可 用 率 的 统计 与 上 述 两 种 监控 不 同 ， 它 是 通过 分 析 数 周 甚 至 数 月 间 示 方 
面 的 监控 结果 ， 发 现 并 改善 系统 在 长 期 运行 中 存在 的 问题 。 


通过 存活 状态 的 监控 和 负载 状态 的 监控 ， 可 以 得 知 服务 的 具体 运作 情况 
以 及 负载 情况 ， 从 而 客观 地 分 析 系 统 的 哪个 部 分 容易 出 现 问题 ， 系 统 整 
体 的 可 用 率 是 怎样 的 等 。 


基于 这 一 分 析 ， 我 们 就 能 够 掌握 特定 主机 的 不 稳定 性 ， 或 者 了 解 到 系统 
架构 原本 就 是 不 稳定 的 ， 并 据 此 战略 性 地 考量 整个 系统 的 元 余 状 况 、 运 
维 人 员 的 维护 习惯 等 。 


5.1.3 ”Nagios 概述 


Nagios 是 具有 以 上 介绍 的 监控 和 统计 功能 的 代表 性 的 监控 工具 。Nagios 
可 以 通过 ping 指 令 测试 网 络 服务 的 存活 状态 ， 通 过 TCP 连接 进行 各 种 
服务 的 监控 ， 通 过 SNMP (Simple Network Management Protocol) 进行 
主机 的 状态 监控 ， 甚 至 还 可 以 通过 插件 进行 任意 方式 的 监控 。 另 外 在 监 
控 结 果 的 通知 方面 ， 除 了 基本 的 邮件 通知 方式 外 ， 还 可 以 任意 设 定 其 他 
方式 。 而 且 通 过 Web 接口 ， 能 方便 地 参考 监控 目标 的 状态 ， 还 能 控制 
监控 的 停止 或 开始 。 


我 们 以 本 节 写 作 时 (2008 年 ) 的 最 新 版 本 Nagios 3.0.2 为 基础 来 说 明 。 
安装 Nagios 


由 于 Red Hat Enterprise Linux 5 及 CentOS 5 的 标准 软件 包 内 没有 包含 
Nagios， 因 此 请 从 下 面 的 官方 网 址 下 载 软件 包 来 安装 。 





URL http:/www.nagios.org/ 

将 Nagios 安装 完成 后 ， 还 可 以 安装 “Official Nagios Plugins” 脚 本 以 监控 
更 多 的 对 象 。Official Nagios Plugins 中 还 有 其 他 的 环境 依赖 包 ， 需 要 时 
可 根据 情况 添加 安装 。 本 贡 的 说 明 均 以 在 CentOS 5.0 系统 中 进行 的 操作 
为 准 。 


5.1.4 Nasgios 的 配置 
由 于 Nagios 的 配置 更 具 弹 性 ， 因 此 配置 起 来 也 稍微 有 些 复杂 。 了 可 以 参 








考 安装 路 径 内 的 示例 配置 文件 来 进行 配置 。 
首先 ， 配 置 Nagios 所 必需 的 基本 概念 请 参考 表 5.1.1。 接 下 来 ， 我 们 对 


表 5.1.1 中 的 主要 概念 进行 一 些 说明 。 
表 5.5.1 Nagios 的 基本 概念 


host《〈 主 机 ) 服务 器 或 路 由 器 等 网 络 上 的 


oo (主机 | 将 多 个 主机 进行 分 组 ， 每 组 至 少 拥 有 一 个 主机 。 可 以 以 主机 组 关 
组 ) 

















基本 的 物理 元 素 ， 即 主机 




















单位 ， 指 定 各 主机 的 事件 〈 主 机 故障 、 恢 复 等 ) 的 通知 对 象 


主机 上 所 运行 的 服务 。 该 服务 不 仅 支 持 POP 及 HTTP 等 功能 
Service (服务 》 | 以 返 加 ping 响 应 及 空余 的 磁盘 容量 等 





用 


contact (通知 对 | 定义 Nagios 中 的 各 种 事件 的 通 
象 ) 地 ) 








contactgroup 〈 通 | 将 多 个 通知 对 象 进 行 分 组 。 
































以 方便 显示 在 Web 管 理 





甬 知 对 象 《contact， 即 通知 发 往 的 目的 





主机 组 及 服务 中 指定 的 通知 对 象 就 是 














知 对 象 组 ) 通知 对 象 组 














template 〈 模 在 多 个 主机 及 服务 的 设 定 存 在 公共 部 分 的 情况 下 ， 可 以 通过 使 用 


板 ) 模板 ， 简 化 公共 部 分 的 设 定 


配置 文件 











， 让 设 定 的 参数 列表 更 加 简洁 


在 下 面 的 解说 中 ， 我 们 假设 在 安装 Nagios 3.0.2 的 同时 ， 还 一 并 安装 
了 “nagios.cfg”commands.cfg”]ocalhost.cfg”* 等 配置 文件 。 





配置 文件 是 在 多 个 扩展 名 为 cfg 的 文件 中 存储 的 ， 这 么 设计 是 为 了 方便 
在 别 的 文件 中 骸 套 读 取 这 些 配 置 项 目 。 随 着 主机 数 的 增加 ， 配 置 文件 也 
会 变 得 越 来 越 庞大 ， 为 了 碍 阅 方便 ， 可 以 将 配置 文件 进行 分 割 。 
host...... 主机 的 配置 

通过 host 对 需要 监控 的 主机 进行 必要 的 配置 。 由 于 通过 host 设 定 的 项 
目 多 种 多 样 ， 并 且 这 些 设置 项 目 在 多 个 主机 中 存在 很 多 共同 之 处 ， 所 以 
建议 使 用 模版 。 


代码 清单 5.1.1 中 的 例子 是 ， 首 先 定义 了 generic-host 的 模版 ， 然 后 基于 
该 模版 定义 了 主机 localhost。 


各 配置 项 目 在 代码 清单 5.1.1 中 的 注释 中 有 简单 的 说 明 ， 接 下 来 对 重要 
的 配置 项 目 进行 补充 说 明 。 











e flap_detection_enabled 
发 生 故 障 和 修复 故障 这 两 种 行为 频繁 地 重复 出 现 ， 这 种 现象 就 称 之 
为 Flapping。 一 旦 Flapping 发 生 ， 束 会 涌 来 大 量 的 通知 信息 ， 此 时 
别 的 有 用 的 通知 信息 就 可 能 会 被 次 没 。 将 该 配置 参数 设置 为 有 效 
时 ， 如 果 监 控 出 了 Flapping， 就 会 只 发 出 开始 和 结束 的 通知 

e max_ check_attempts 
当 检 测 失 败 的 次 数 超过 这 里 指定 的 次 数 时 ， 就 认为 主机 发 生 了 故 
障 ， 并 发 出 通知 

e notification_period 


发 送 通知 的 时 间 段 。localhost.cfg 中 有 “24x7”(24 小 

时 ) 、“workhours”( 工 作 日 上 午 9 时 到 下 午 5 

时 ) 、“nonworkhours”( 工 作 日 上 午 9 时 到 下 午 5 时 以 外 的 时 
间 ) 、“none”( 没 有 对 应 的 时 间 段 ) 这 四 种 定义 方式 。 一 般 使 
用 “24x7” 的 配置 方法 


e check command 


监控 时 使 用 的 命令 。 配 置 例子 中 指定 的 check-host-alive 是 基于 通过 


发 出 ping 对 主机 进行 监控 的 check-ping 命 令 的 命令 。 默 认 的 配置 
是 如 条 5000 吟 秒 以 内 没有 做 出 反映 ， 束 会 变 成 CRITICAL 状态 


service...... 服务 的 定义 


service 定义 了 日 前 主机 上 所 运行 的 服务 (代码 清单 5.1.1) 。 和 host 一 
样 ， 也 可 以 使 用 模版 功能 使 描述 更 加 简洁 。 


代码 清单 5.1.1 host 的 配置 案例 


define host{ 
name generic-host < 模版 名 
notifications enabled < 开启 主机 的 通知 
event_ handler_ enabled < 开启 主机 的 事件 处 理 程序 (Event Handler) 
flap_detection enabled < 监控 Flapping 
failure prediction enabled 启 故障 预 判 
process_perf_data < 处 理 有 关 性 能 的 信息 
retain status_ information < 重启 后 依然 保留 状态 信息 
retain nonstatus_ information < 重启 后 依然 保留 状态 以 外 的 信息 
notification period 24x7 “在 所 有 时 间 段 都 会 通知 
register 6 “这 里 默认 即 可 



























































} 
define host{ 
name linux-server < 模板 名 
use generic-host < 指定 所 使 用 的 模板 
check_period 24x7 < 在 所 有 时 间 段 都 会 监控 
max_check_attempts 16 < 规定 最 多 监控 16 次 
check_command check-host-alive < 监控 用 的 命令 
notification period workhours < 只 在 工作 日 白天 通知 
notification interval 126 < 通知 间隔 
notification options d,Uu,r < 通知 的 状态 
contact_ groups admins < 通知 对 象 所 在 的 contactgroup 
register 6 < 这 里 默认 即 可 
} 
define host{ 
use linux-server < 指定 使 用 的 模板 
host_name ”localhost < 主机 名 
alias Localhost Server < 别名 
address 192.168.6.1 ”<IP 地 址 













































































command...... 命令 的 定义 


可 以 用 command 定义 命令 。 在 代码 清单 5.1.2 (service 的 配置 案例 ) 
中 ， 用 check_ping 对 服务 进行 了 监控 。 命 令 名 〈check_ping) 后 面 
的 "1166.6,26%1566.9,66%" 是 该 命令 的 参数 ， 用 ! 隔 开 。 这 

里 "166.6,26%" 对 应 了 $ARG1$ ，"566.6,66%" 对 应 了 $ARG294。 


这 个 命令 的 默认 设 定 如 代码 清单 5.1.3 所 示 。 可 以 使 用 -w 参数 来 定义 发 
生 WARNING 的 条 件 ， 使 用 -c 参数 来 指定 CRITICAL 的 条 件 。 在 代码 
清单 5.1.2 的 情况 下 ， 若 出 现 100ms 以 上 的 延迟 或 者 20% 以 上 的 丢 包 的 
话 ， 就 会 发 生 WARNING ; 若 出 现 500ms 以 上 的 延迟 或 者 60% 以 上 的 
技 包 的 话 ， 束 会 发 生 CRITICAL 。 


代码 清单 5.1.2 ”service 的 配置 案例 





define servicet 


eneric-service < 模板 名 

< 启动 主动 监控 

< 启动 被 动 监控 

< 在 主动 监控 中 启动 并 行 监控 
obsess_over_ service < 在 分 流 环境 中 通知 结果 
check_ freshness < 关闭 强制 刷新 〈freshness 监 控 ) 


name g 
1 
1 
1 
1 
0 

notifications_enabled 1 < 开启 主机 的 通知 
1 
1 
1 
1 
1 
1 


active checks enabled 
passive _ checks enabled 
parallelize check 





















































event_handler_enabled < 开启 事件 处 理 程序 
flap_detection enabled 启动 抖动 监控 
failure prediction enabled < 开启 故障 预 判 
process_perf_data < 处 理 有 关 性 能 的 信息 

retain_ status_information 重启 后 依然 保留 状态 信息 
retain_nonstatus_information 重启 后 依然 保留 状态 以 外 的 信息 
is volatile 6 








个 





























个 





个 












































register 6 “这 里 默认 即 可 

} 

define servicet{ 
name local-service < 模板 名 
use generic-service < 指定 所 使 用 的 模板 
check_period 24x7 < 在 所 有 时 间 段 都 会 监控 
max_check_attempts 4 < 最 多 尝试 4 次 监控 


normal_ check interval 5 
retry_check_interval 1 
contact_ groups admin 














notification options wu Cc,r < 通知 的 状态 
notification interval 66 < 通知 间隔 
notification period 24x7 

register 0 


} 


define servicet{ 


use local-service < 指定 所 使 用 的 模板 

host_name localhost ”< 所 使 用 的 主机 组 

service description PING < 服务 名 

check_command check_ping1166.6,26%1566.8,66% < 监控 命令 








代码 清单 5.1.3”command 的 配置 案例 


# 'check ping' command definition 
define command{ 
command_name check_ping 


command 1ine $USER1$/check ping -H $HOSTADDRESS$ -w $ARG1$ -c $A 
} 





contact 与 contactgroup...... 通 知 对 象 和 通知 对 象 组 


可 以 用 contact 定义 通知 对 象 ， 用 a ney 定义 通知 对 象 组 (代码 
清单 5.1.4) 。 通 知 遂 常 都 是 通过 指定 通知 对 象 组 进行 ， 因 此 最 少 要 有 
一 个 通知 对 象 组 。 


可 以 使 用 service_notification_commands 合 命令 来 处 理 服务 相关 的 通知 ， 
用 host_notification_commands 命令 处 理 主机 相关 的 通知 。 代 码 清单 
5.1.4 是 配置 邮件 通知 的 实例 。 


代码 清单 5.1.4 contact 及 contactgroup 的 配置 案例 








define contact{ 



















































































contact_name nagios-admin < 通知 对 象 名 

alias Nagios Admin < 通知 对 象 的 别名 

service notification period 24x7 < 处 理 服 务 通知 的 时 间 段 
host_notification period 24x7 < 处 理 主机 通知 的 时 间 段 

service _ notification options  w,u,c,r < 服务 通知 的 事件 类 型 
host_notification options d,r < 主机 通知 的 事件 类 型 
service_notification commands notify-by-email < 服务 的 通知 命令 

host _ notification commands host-notify-by-email < 主机 的 通知 命令 

email nagios-admin@localhost < 通知 对 象 的 邮箱 地 址 
} 


define contactgroup{ 
contactgroup_name admins < 通知 对 象 组 的 名 字 
alias Nagios Administrators < 通知 对 象 组 的 别名 





























members nagios-admin < 该 通知 对 象 组 中 所 包含 的 通知 对 象 名 





配置 的 测试 
更 改 Nagios 的 配置 的 时 候 ， 可 以 用 以 下 命令 让 配置 立刻 生效 : 


/etc/init.d/nagios reload 


假设 配置 中 存在 语法 错误 等 问题 ， 执 行 以 上 命令 时 将 会 输出 这 些 错误 信 





息 。 可 以 根据 情况 对 配置 文件 进行 恰当 的 修正 。 
5.1.5 ”Web 管理 界面 
Nagios 拥有 强大 的 Web 管理 界面 ， 能 够 在 此 确认 各 种 主机 和 服务 的 状 


态 ， 还 可 以 暂停 监控 等 进行 某 种 程度 的 控制 。 图 5.1.2 是 Nagios 的 主 菜 
单 。 关 于 菜单 的 内 容 在 表 5.1.2 中 进行 了 说 明 。 
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图 5.1.2 Nagios 的 主 菜 单 


表 5.1.2 Nagios 的 主 菜单 


项 目 

















Monitoring “|Monitoring 项 目下 从 各 种 角度 列 出 了 监控 相关 的 状态 


Tactical 列 出 每 个 主机 及 服务 的 状态 信息 ， 还 能 显示 出 各 个 主机 及 服务 的 监控 
Overview 情况 ， 以 便 把 握 系 统 整 体 的 健康 信息 


























Service Detail | 列 出 不 同 了 详情 。 Cf 行 排序 以 从 整体 上 把 握 








Host Detail 过 浏览 主机 的 详情 ， 可 以 了 解 该 主机 是 否 已 经 遭 


























Hostgroup “| 确认 各 个 主机 组 的 状态 。 通 过 组 的 划分 可 以 从 不 同 的 目的 进行 把 
Overview 另外 通过 主机 组 名 的 链接 ， 可 以 只 查看 特定 组 的 信息 


HI 


























HosStgroup | 列 出 各 主机 组 的 状态 情况 及 数目 


Summary 























Hostgroup 类 似 Hostgroup Overview， 以 表格 的 形式 列 出 ， 方 便 在 故障 时 特定 到 
Grid 基体 的 服务 (图 5.1.3) 





Servicegroup 

Overview 

Servicegroup | 将 Hostgroup Overview、Hostgroup Summay、Hostgroup Grid 的 主机 组 
Summay 划 归 到 相应 的 服务 组 时 的 界面 

Servicegroup 

Grid 


Status Map ”| 可 以 查看 主机 的 网 络 拓扑 关系 图 4。Status Map 是 2D 图 ，3-D Status 


We Map 是 根据 VRML 创 建 的 3D 图 表 











Service 只 列 出 发 生 故 障 的 服务 


Problems 


只 列 出 发 生 故 障 的 主机 
roblems 


列 出 在 拓扑 中 发 生 故 障 时 网 络 中 断 的 具体 信息 








Comments 显示 主机 及 服务 的 相关 备注 信息 

列 出 计划 中 的 停机 时 间 
Nagios 的 进程 信息 

间 等 信息 外 ， 还 能 

































































Performance | 根据 Nagios 所 监控 的 性 能 信息 ， 显 示 执 行 监控 命令 的 时 间 的 统计 等 信 
Information 妃 



































Scheduling ”| 显示 高 度 队 列 信息 (只 里 员 才 能 看 到 ) ， 列 出 相关 进程 下 次 监控 
Queue 的 时 间 序 列 


成 关于 主机 或 服务 的 状态 变化 的 趋势 


A Ne 以 及 列 

















ert 生成 关于 主机 或 服务 的 警告 数 的 变化 趋势 


Histogram 











显示 所 有 主机 及 服务 的 警告 的 历史 记录 〔 图 5.1.4) 


ee 显示 最 新 的 25 条 ， 或 最 多 显示 25 
Summary 条 

的 通知 ， 还 能 通过 特定 的 种 ; 
em | 

































































4 该 图 像 仅 限 在 Windows 操作 系统 中 的 正 浏览 器 下 ， 安 装 cortbeta 才 会 显示 。 一 一 译 者 注 
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图 5.1.3 Hostgroup Grid 界面 


All Hosts and Services State type options: 


All state types 已 





Log File 
Latest Navigation History detail level for all hosts: 
Archive ”Mon Jun 16 00:00:00 [Heens “ 司 
JST 2008 
所 to DD Hide Fiapping Alerts 
EF Hide Downtime Alerts 
File: lusriocalinagios/varinagios .log DF Hide process Messages 


FF otiger Entries First 


June 16, 2008 22:00 


@ 6.2008 2229:56] SERVICE ALERT bcahostRoot Parttion WARNNG-HARD4.DISK WARNNG - free space: 1735 MB (20% inode=77%) 
3 {06-16-2008 22:28-56}] SERVICE ALERT: ocahost Root Parttion:WARNING:SOFT:3:.DISK WARNING - free space: /735 MB (20% inode=77%)- 
{06-16-2008 22.28-35] SERVICE ALERT: iocahostHTTP:WARNING:HARD;4;:HTTP WARNING: HTTPH.1 403 Forbidden 
{06-16-2008 22:27:56] SERVICE ALERT: bcalhost Root Parttion:WARNING:SOFT;2;DISK WARNING - free space: /735 MB (20% inode=77%): 
(06-16-2008 22.27-36] SERVICE ALERT: bcalhost:HTTP:WARNING; SOFT,3.HTTP WARNNG: HTTP/1.1 403 Forbidden 
{06-16-2008 22.26-56] SERVICE ALERT: localhostRoot Parttion-WARNING;SOFT:1:DISK WARNING - free space: 1 735 MB (20% inode=77%)- 
[106-16-2008 22.26:36] SERVICE ALERT: pcalhostHTTP:WARNING:SOFT2:HTTP WARNING: HTTP/1.1 403 Forbidden 
3 106-16-2008 22:25:37] SERVICE ALERT: bcahost HTTP'WARNING:SOFT;1:HTTP WARNING: HTTP/1.1 403 Forbidden 
{06-16-2008 22.24-25] Nagios 3.0.2 starting.. (PID=10303) 
(06-16-2008 22.24-23] Caught SIGTERM, shutting down... 
GO 106-16-2008 22.23:41] Nagios 302 startng... (PD=10236) 


图 5.1.4 Nagios 的 Alert History 界面 


5.1.6 ”Nagios 的 基本 使 用 方法 


鉴于 Nagios 的 配置 极 具 弹 性 化 ， 可 能 不 太 容 易 上 手 。 这 里 我 们 以 网 络 
服务 器 的 监控 为 例 ， 介 绍 一 下 Nagios 的 基本 使 用 方法 。 


主机 和 服务 的 定义 


首先 ， 登 录 正 在 运作 服务 的 主机 代码 清单 5.1.5) 。 其 次 ， 针 对 各 个 
服务 在 主机 组 中 进行 分 配 ， 对 每 个 主机 组 进行 监控 。 


增加 的 服务 有 两 种 : 整个 服务 器 上 共通 的 服务 ， 以 及 与 各 个 服务 器 的 工 
作 相 应 的 服务 。 监 控 服 务 器 中 共有 的 服务 时 ， 可 以 使 用 check_ping 命 
念 监控 主机 的 运行 状态 ， 通 过 check_snmp 命 令 确 认 磁 盘 的 剩余 空间 ， 
这 是 基础 的 SNMP 监控 服务 。 


Apache 之 类 的 Web 服务 器 的 情况 下 ， 可 以 使 用 check_http; MySQL 
服务 器 的 情况 下 ， 可 以 使 用 check_mysql 命 令 。Official Nagios Plugins 
中 包含 了 check_mysql 命 令 。 


代码 清单 5.1.5 主机 与 服务 的 配置 案例 


define command{ 

command_name check mysql 

command line $USER1$/check mysql -H $HSTADDRESS$ -u $ARG1$ -p 
$ARG2$ -P $ARG3$ 
} 


define host{ 
Use linux-server 
host name databaseserverl1 
alias databaseserver1 
address 192.168.0.166 


} 


define hostgroup { 


hostgroup_name database-servers 
alias Database Servers 
members databaseserver1 


} 


define servicet{ 
use http-service 
hostgroup_name database-servers 
service description MySQL 
check_command check mysql!nagios!nagios!33066 





根据 运行 监控 ， 当 发 现 异 常 或 警告 时 ， 尽 可 能 迅速 地 通知 管理 者 进行 应 
对 是 非常 必要 的 。 作 为 实现 这 项 工作 的 基本 功能 ， 需 要 发 送 异 常 和 警告 
内 容 的 邮件 。 因 为 这 里 可 以 启动 任意 命令 ， 所 以 根据 所 安装 的 命令 情 
况 ， 有 了 时 还 需要 向 IRC、IM 等 发 送 通知 。 





举例 来 说 ， 假 设 笔者 要 把 故障 通知 友 到 各 个 运 维 人 员 的 手机 上 ， 还 要 给 
IRC 发 送 通知 。IRC 主要 被 用 于 共享 应 对 故障 时 的 信息 ， 通 过 同 IRC 中 
发 送 Nagios 的 通知 信息 ， 可 以 很 好 地 把 握 发 生 复杂 故障 时 的 状况 。 


邮件 


邮件 是 发 送 Nagios 故障 通知 的 基本 方式 。 故 障 一 旦 发 生 ， 如 图 
5.1.5 所 示 的 邮件 就 会 被 发 送 。 默 认 的 配置 是 主机 的 情况 下 使 用 
host-notify-by-email 命令 ， 服 务 环境 的 情况 下 使 用 notify- 
by-email 命令 。 各 种 命令 的 配置 实例 请 参阅 代码 清单 5.1.6。 


图 5.1.5 Nagios 的 通知 邮件 示例 











From: nagiosQ@Qexample.com 
Subject: CRITICAL 1611/http_service 
To: maintenance@examp1le.com 


Notification Type: PROBLEM 
Service: http_service 

Host: 1611 

Address: 192.168.1.11 

State: CRITICAL 

Date/Time: 02-08-2668 12:37:51 


Additional Info: 


(Service Check Timed Out) 





代码 清单 5.1.6 ”邮件 通知 命令 的 配置 


# 'host-notify-by-email' command definition 
define command{ 


command_name host-notify-by-email 

command_line /usr/bin/printf "%b" "*****NagiOs *****\n\ 
nNotification Type: $NOTIFICATIONTYPE$ \NnHost: $HOSTNAME$ \nState: 
$HOSTSTATE$ \nAddress: $HOSTADDRESS$\nInfo: $HOSTOUTPUT$ \n\nDate/ 
Time: $LONGDATETIME$\n" | /bin/mail -s "$HOSTSTATE$ $HOSTNAME$!" 
$CONTACTEMAIL$ 


} 


# 'notify-by-email' command definition 
define command{ 

command_name notify-by-email 

command_line /usr/bin/printf "%b"” "****** NagiOs *****\n\ 
nNotification Type: $NOTIFICATIONTYPE$ \Nn\nService: $SERVICEDESCS$\ 
nHost: $HOSTALIAS$\nAddress: $HOSTADDRESS$\nState: $SERVICESTATES\ 
n\nDate/Time: $LONGDATETIME$ \N\NnAdditional Info:\n\ 
n$SERVICEOUTPUT$" | /bin/mail -s 
”$SERVICESTATE$ $HOSTALIAS$/$SERVICEDESC$ " $CONTACTEMAILS 

} 





IRC 


在 Hatena 网 站 的 染 构 中 ， 除 邮件 的 方式 外 ， 还 可 以 同 IRC 的 相应 
频道 发 出 警告 。 当 故障 发 生 的 时 候 ， 管 理 员 需要 在 考虑 应 对 方法 的 
同时 ， 与 多 方 联络 进行 沟通 。 在 这 种 情况 下 ， 随 时 掌握 不 断 变化 的 
服务 器 的 状态 并 共享 信息 ， 这 样 才 可 以 有 效 地 应 对 故障 。 而 且 ， 当 
发 生 影响 范围 大 的 故障 时 ， 使 用 邮件 的 方式 就 会 造成 大 量 邮 件 的 发 
送 ， 因 此 邮件 监控 方式 的 直观 性 可 能 会 受到 影响 。 此 时 ， 使 用 IRC 
的 方式 ， 通 过 对 IRC 的 频道 日 志 进 行 确认 ， 就 能 够 完全 掌握 全 部 状 
ns 


在 使 用 IRC 的 方式 传递 信息 时 ， 需 要 准备 IRC 服务 器 、IRC 消息 
机 器 人 、 回 消息 机 器 人 传递 信息 的 客户 端 这 三 者 。IRC 服务 器 使 用 
了 标准 的 ircd ; IRC 机 器 人 使 用 名 为 Kwiki::Notify::irc 的 CPAN 模 
块 ， 在 该 模块 中 包含 名 为 “notify-irc.p1* 的 消息 机 器 人 ; 客户 端 使 用 
了 将 同一 模块 的 Kwiki::Notify::IRC.pm 作为 单一 脚本 来 运行 ， 这 里 
也 使 用 到 了 “notify_irc.pl*”( 代 码 清单 5.1.7、 代 码 清单 5.1.8) 


代码 清单 5.1.7 使 用 notify_irc.pl 所 需 的 设 定 


























define contact{ 
contact name irc 
alias irc-bot 


email test@example.com 

service notification period 24x7 

host notification period 24x7 

service notification options Ww,u,c,r 

host notification options d,u,r 

service notification commands notify-irc 
host notification commands host-notify-irc 


} 


# 'notify-by-irc' command definition 
define command{ 
command_name notify-irc 
command_line $USER1$/notify irc.pl "$SERVICESTATES$ $HOSTALIAS$ 
/$SERVICEDESC$ ($HOSTNAMES$ )" 
} 
# 'host-notify-by-irc' command definition 
define command{ 
command_name host-notify-irc 
command_line $USER1$/notify irc.pl "$SERVICESTATE$ $HOSTALIAS$($HOST 


} 





代码 清单 5.1.8 ”notify_irc.pl 


#!/usr/bin/perl 

use strict; 

use warnings; 

use POE: :Component: :IKC::ClientLite; 
my $message = shift; 


my $remote = POE::Component::IKC::ClientLite::create ikc client( 


port => 9999 ， 

ip => "1ocalhost '， 

name => "Nagios$$", 

timeout => 5， 
) or die "Couldn't create IRC connection!"; 
$remote->post('notify_ irc/update', $message); 
exit 9; 





5.1.7 实用 的 使 用 方法 
本 节 将 要 介绍 测定 可 用 率 及 独立 插件 等 Nagios 的 使 用 方法 。 
可 用 率 的 测定 


要 测定 可 用 率 ， 首 先 要 能 够 检测 服务 的 运行 。 基 本 做 法 是 ， 使 用 服务 的 
全 局 IP 地 址 定义 主机 ， 然 后 再 定义 作为 测定 对 象 的 服务 。 例 如 ， 测 定 
http://www.hatena.ne.jp/ 的 可 用 率 的 Nagios 配置 就 如 代码 清单 
5.1.9 所 示 。check_vhost 命 令 可 以 通过 使 用 check_http 命 令 ， 在 
FQDN (Fully Qualified Domain Name， 完 全 限定 域名 ) 中 指定 相应 域 
名 ， 从 而 来 指定 任意 服务 器 。 


接 下 来 ， 将 可 用 率 记 录 为 图 表 化 的 形式 。 代 码 清单 5.1.10 是 Hatena 的 
分 析 肢 本， 是 在 Nagios 的 Web 管理 界面 中 截取 的 。 该 脚本 每 日 运行 一 
次 ， 这 样 服务 的 可 用 率 就 可 以 以 明了 的 图 表 形 式 同 外 部 展示 。 图 5.1.6 
中 展示 了 图 表 化 的 可 用 率 。 


代码 清单 5.1.9 测定 可 用 率 的 配置 








define service { 
use generic-service 
host_name hatena-www.hatena.ne.jp 
service description hatena-www 
check_command check_ vhost!lwww.hatena.ne.jp!/ 


} 


define host { 
use generic-host 
host_name hatena-www.hatena.ne.jp 


address 59.166.168.86 
alias hatena-question 


} 


# 'check vhost' command definition 
define command{ 

command_name check_ vhost 

command_line $USER1$/check_ http -H $ARG1$ -u $ARG2$ -t 120 
} 








代码 清单 5.1.10 将 可 用 率 图 表 化 的 脚本 





#!/usr/bin/env ruby 

require "Pubygems 

require 'hatena/api/graph' 

require 'hpricot' 

require “pathname 

root = Pathname.new( _FILE ).parent 


require root.parent .join( "1Lib/hatena_consts ' ) 


targets = [ 

{ :host => "hatena-a.hatena.ne.jp", 
:service => "hatena-antenna", 
:id => "hatenaantenna", 
:graphname => "availability' }, 


] 


targets.each do |target| 

cmd = "curl 'http://192.168.0.1/nagios/cgi-bin/avail.cgi?host=#{t 
arget[:host]}&service=#{target[:service]}&assumeinitialstates=yes& 
assumestateretention=yes&assumestatesduringnotrunning=yes&includes 
oftstates=no&initialassumedhoststate=6&initialassumedservicestate= 
e&timeperiod=last31days'" 

body = ‘#{cmd}. 


graphname = target[ :graphname ] 
count = Hpricot(body).search('td.serviceOK').last.innerText.to _f 


g = Hatena: :API::Graph.new(target[:id], HatenaConsts: :HATENA PASSWD) 
puts "#{target[:host]}/#{target[:service]} #{target[:id]}, 
#{graphname}, #{count}" 
g.post_ data(graphname, :value => count) 
end 
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图 5.1.6 可 用 率 图 表 (使 用 Hatena Graph 制作 ) 
独立 插件 


Nagios 中 具备 了 很 多 监控 用 的 命令 ， 但 却 无 法 监控 未 响应 的 服务 状态 或 
特殊 的 硬件 状态 等 。 这 种 情况 下 有 三 种 方法 : 使 用 NRPE (Nagios 
Remote Plugin Executor) 、 使 用 SNMP、 使 用 独立 插件 。 


使 用 NRPE 可 以 便捷 地 加 入 监控 对 象 ， 但 是 需要 在 每 个 服务 器 中 给 
Nagios 确立 新 的 进程 ， 因 此 Hatena 网 站 中 就 没有 使 用 这 个 办 法 。 而 是 
在 像 MySQL 那样 可 以 进行 远程 访问 的 风 况 下 ， 使 用 独立 插件 进行 监 
控 ; 反之 当 远 程 主机 不 能 访问 时 ， 则 通过 net-snmp 经 由 SNMP 进行 监 
控 。 


下 面 介 绍 三 个 独立 插件 的 示例 ， 即 “MySQL 同步 监控 ”MySQL 进程 监 


a 临 控 ”5。 














5 关于 这 三 个 独立 插件 check_mysqlrep.sh、check_mysql_process.sh、check_memcached.sh， 请 参 
考 本 书 最 后 的 补充 信 恩 oo 


MySQL 同步 监控 ..….. check_mysqlrep.sh 


监控 MySQL 同步 是 否 正确 运行 《代码 清单 5.1.11、 代 码 清单 
5.1.12) 。 该 脚本 对 MySQL 服务 使 用 了 show slave status 命 
令 ， 来 监控 复制 操作 是 否 正常 。 一 旦 发 生 错误 停止 ， 就 会 发 出 相应 
的 错误 通知 。 


代码 清单 5.1.11 部 署 check_mysqlrep.sh 所 需 的 配置 








# 'check_mysqlrep' 
define command{ 
command_ name check mysqlrep 


command_line $USER1$/check mysqlrep.sh -H $HOSTADDRESS$ -u $ARG1$ -p 
} 





代码 清单 5.1.12 ”check_mysqlrep.sh (摘录 ) 


status= $mysqlpath/mysql -u $user -p$pass -P $port -h $host -e 
"Show slave status\G' 2>&1 
if [ $? -et © |] 
then 
echo $status | head -1 
exit $STATE CRITICAL 
fi 


badcount=`echo $status | grep Running | grep No | wc -1.; 
lasterror=‘echo $status | grep Last error. 
IFS=$ IFS OLD 


if [ $badcount -gt 6 ]; then 
echo "NG: $1lasterror" 
exit $STATE CRITICAL 

else 


echo "OK 
exit $STATE_OK 
fi 
exit $STATE _ UNKNOWN 





MySQL 进程 数 监控 ..….. check_mysql_process.sh 


对 MySQL 正在 处 理 的 查询 数 〈 进 程 数 ) 进行 监控 的 脚本 (代码 清 
单 5.1.13) 。 在 这 个 脚本 中 ， 通 过 向 MySQL 服务 器 发 出 show 





processlist 命令 ， 查 看 MySQL 服务 器 正在 处 理 的 进程 数 ， 另 外 
在 碍 看 进程 数 的 时 候 也 算 进 了 sleep 状态 的 进程 。 


代码 清单 5.1.13 “check_mysql_process.sh 〈 摘 录 ) 


processcount= $mysqlpath/mysql -u $user -p$pass -P $port -h $host 
-BNe 'show processlist' | awk '{print $5}' | grep -v Sleep | wc -1.; 


echo "processcount: $processcount" 

if [ $processcount -ge $crit ]; then 
exit $STATE CRITICAL 

elif [ $processcount -ge $warn ]; then 
exit $STATE WARNING 

else 
exit $STATE_ OK 

fi 

exit $STATE UNKNOWN 





memcached 的 监控 ...... check_memcached 











监控 在 内 存 中 运行 的 缓冲 工具 memcached 是 否 正 常 运行 〈 代 码 清 
单 5.1.14) 。 访 脚本 发 布 在 Ian Zilbo 的 主页 6 上 。 在 该 脚本 中 ， 连 
接 指 定 的 memcached 服务 器 ， 来 确认 是 否 可 以 正常 地 设 定 或 读 取 
数值 。 


代码 清单 5.1.14 ”check_memcached (摘录 ) 





my $memd = new Cache: :Memcached { 
'servers' => [ "$host:$port" ]， 
'debug' => 6， 
'compress threshold' => 16 666， 


}; 


unless ( $memd->set( $key ， "Nagios Check key", 4*60 ) ) { 
print "unable to set memcached $key"; 
exit $ERRORS{'CRITICAL'}; 
} 
my $val = $memd->get( $key ); 
if ( defined($val) and $val eq "Nagios Check key" ) { 
exit $ERRORS{'OK'}; 


else { 


print "unable to get memcached $key/wrong value returned"; 
exit $ERRORS{'CRITICAL'}; 


} 





6URL http:/zibo.com/〈 本 书 执笔 时 该 网 站 已 经 无 法 打开 ) 。 


5.1.8 ”小 结 


在 服务 咒 监 控 这 种 需要 稳定 运行 的 领域 ， 使 用 Nagios 是 很 明智 的 选 

择 。 而 且 Nagios 非常 适合 在 大 规模 环境 中 使 用 ， 因 为 Nagios 提供 了 丰 
富 的 插件 ， 能 够 应 对 各 种 环境 ， 通 过 有 效 使 用 Nagios， 可 以 实现 基础 设 
施 的 稳定 运行 。 








5.2 ”服务 器 资源 的 监控 
5.2.1 服务 器 资源 的 监控 


本 下 将 介绍 服务 器 资源 监控 的 相关 内 容 。 前 
后 半 部 分 介绍 笔者 所 应 用 的 监控 的 具体 实施 


监控 的 目的 
首先 对 监控 这 种 行为 进行 分 析 整 理 。 监 控 的 目的 用 一 句 话 来 说 就 是 观察 
服务 器 行为 的 变动 。 说 到 观察 行为 的 变动 ， 就 是 指 持 续 记 录 下 面 这 些 表 
示 服 务 器 状态 的 指标 : 

。 CPU 使 用 率 

。 内 存 使 用 率 





Ganglia 








半 部 分 分 析 监 控 的 作用 等 ， 
策略 。 








。 load average 
。 网 络 流量 
并 将 其 可 视 化 ， 以 便 更 清楚 地 把 握 变 化 的 具体 情况 及 倾向 。 


与 需要 及 时 处 理 的 服务 监控 (也 可 以 说 检测 异常 ) 不 同 ， 观 察 行 为 的 变 
化 看 似 用 处 不 大 ， 但 是 在 后 面 的 实践 中 就 会 体会 到 其 价值 。 


此 外 ， 诸 如 在 电子 杂志 、 电 视 商 业 广 告 、 大 规模 的 门户 网 站 刊登 了 茶 站 
点 的 广告 的 情况 下 ， 基 于 广告 的 宣传 效果 ， 该 站 点 可 能 会 瞬间 产生 大 量 
的 访问 ， 这 时 ， 直 到 访问 稳定 下 来 之 前 ， 管 理 者 一 定 会 忙 得 不 可 开交 。 
这 样 一 来 ， 一 段 时 间 之 后 谁 还 会 知道 系统 的 瓶颈 完 竟 在 哪里 呢 ? 而 如 果 
能 将 过 去 服务 器 资源 的 变化 用 图 表 呈 现 出 来 ， 就 可 以 清楚 地 进行 比较 ， 
从 而 也 更 容易 分 析 。 


另外 ， 在 环境 没有 变化 但 是 观测 的 数值 出 现 波动 的 情况 下 ， 就 可 以 预测 
可 能 会 发 生 故 障 。 举 例 来 说 ， 在 IO 进程 的 等 待 数 持续 增加 居 高 不 下 的 
情况 下 ， 就 可 能 是 磁盘 故障 导致 WO 出 现 了 性 能 瓶颈 。 通 过 使 用 监控 ， 
可 以 及 时 应 对 上 述 状 况 。 


























5.2.2 检测 工具 的 讨论 


那么 ， 实 际 上 监控 是 怎样 部 区 的 呢 ? 虽 说 从 零 开 始 建 并 相关 机 制 也 是 可 
行 的 ， 但 目前 已 经 存在 了 很 多 监控 相关 的 工具 ， 可 以 帮助 我 们 收集 资料 
并 进行 图 表 化 ， 因 此 我 们 可 以 直接 使 用 这 些 现成 的 工具 来 部 普 。 下 面 是 
几 个 比较 常用 的 工具 : 





e。 Munin URL http:/munin.projects.linpro.no/ 

e Cacti URL http:/www.cacti.net/ 

。 Centreon( 旧 称 Oreon) URL http:/www.centreon.com/ 

e。 Monitorix URL http:/www.monitorix.org/ 

e。 NetMRG URL http:/www.netmrg.net/ 

e。 collectd URL http://collectd.org/ 
这 里 讲 一 下 笔者 使 用 Munin 和 Cacti 的 感受 。 因 为 Munin 中 存在 非常 多 
的 插件 ， 所 以 即便 不 编写 程序 或 进行 详细 的 设 定 ， 也 可 以 使 多 种 资源 报 
表 图 表 化 。Cacti 的 优点 在 于 清晰 地 划分 了 层 〔 收 集资 料 、 定 义 资料 、 
绘制 图 表 ) 的 结构 ， 以 及 所 有 的 配置 都 可 以 在 浏览 右上 运行 。 
一 般 情 况 下 ， 在 增加 或 者 删除 作为 监控 对 象 的 节点 《服务 器 ) 的 时 候 ， 
上 述 两 种 工具 都 必须 进行 改写 配置 的 操作 ， 而 且 图 表 的 一 览 性 也 会 变 
差 ， 因 此 不 适合 用 于 监控 大 量 服务 器 。 
5.2.3 Ganglia ...... 面 癌 大 量 节 点 的 图 表 化 工具 
那么 在 服务 器 集群 中 究竟 要 使 用 什么 工具 呢 ? 这 时 就 该 Ganglia” 出 场 
了 。 根 据 Ganglia 的 官网 介绍 ， 最 初 Ganglia 是 以 在 组 或 分 布 式 计 算 这 


些 有 大 量 节 点 的 环境 中 使 用 为 前 提 而 创建 的 监控 工具 。 以 下 列举 几 点 在 
实际 使 用 中 比较 便利 的 地 方 。 





7URL http://ganglia.info/ 


首先 第 一 点 ， 增 加 、 删 除 节点 (服务 器 时 无 需 变更 配置 。 在 增加 的 节 


反 中 / 只 需 修改 代理 〈Gmond) 就 可 以 了 。 这 样 一 来 ， 在 与 采集 数据 并 进 

行 图 表 化 作业 的 程序 〈《Gmetad) 通信 时 ， 束 可 以 将 图 表 化 对 象 增加 进 相 
应 的 组 了 。 然后 活用 组 播 通信 ， 就 没 必要 配置 IP 地 址 了 ， 也 不 用 为 了 
检测 出 节点 而 在 整个 子 网 的 范围 内 进行 SNMP 了 。 


第 二 点 是 图 表 的 一 览 性 强 。 请 看 图 5.2.1。 像 这 样 将 所 有 节点 的 图 表 都 
以 网 格 的 方式 表现 出 来 ， 更 易于 进行 宏观 的 比较 。 
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图 5.2.1 Ganglia 
相反 ， 也 列举 几 点 不 便 之 处 。 


首先 ， 图 表 的 种 类 没有 那么 多 。 只 能 制作 CPU 和 内 存 使 用 率 、 流 量 之 

类 的 基本 图 表 ， 种 类 没有 Munin 多 。 另 外 在 增加 单独 的 图 表 的 情况 下 ， 
如 果 数 值 是 一 个 种 类 的 话 ， 只 需 运 用 gmetric 命令 来 发 送 数值 ， 就 可 以 
简单 地 制作 图 表 。 但 如 果 在 一 个 图 表 中 描述 多 个 数值 的 话 〈 例 如 在 一 个 
图 表 中 对 IO 读 取 和 IO 写 入 两 方面 进行 描述 ) ， 惑 需要 以 Ganglie 上 自 

里 的 代码 (PHP) 来 实现 ， 因 此 较为 麻烦 。 


第 二 反 ， 图 表 中 指定 显示 时 间 的 选择 项 是 固定 的 ， 只 有 一 小 时 、 一 天 、 
一 周 、 一 个 月 、 一 年 ， 除 此 之 外 都 不 能 选择 。 比 如 “有 大 量 访问 的 那 一 
天 儿 扣 到 几 点 的 图 表 ” 就 不 能 显示 ， 也 就 是 说 ， 不 能 灵活 地 显示 菏 个 时 
间 段 的 状况 。 一 般 来 说 ， 因 为 所 有 时 间 段 的 观测 资料 都 被 保存 了 下 来 ， 
所 以 只 需 对 指定 显示 期 间 的 用 户 接口 和 描述 逻辑 稍 加 设 定 ， 就 应 该 能 获 
得 任意 时 间 的 图 表 。 笔 者 使 用 了 Yahoo! UI Librarys 的 日 历 进行 了 上 述 
改造 ， 这 样 就 能 够 方便 地 调 取 所 需 日 期 的 信息 了 。 
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虽然 直接 使 用 Ganglia 还 存在 一 些小 问题 ， 但 是 在 有 大 量 节 点 的 环境 中 
使 用 时 ， 因 为 基本 的 设计 和 相关 机 制 已 经 比较 完善 ， 而 且 该 工具 又 是 使 
用 PHP 编写 的 ， 所 以 整体 的 可 读 性 及 定制 性 非常 强大 。 因 此 使 用 
Ganglia 时 ， 可 以 根据 自己 的 需要 做 出 相应 的 改进 。 接 下 来 ， 我 们 将 介 
绍 增加 图 表 的 方法 。 为 外 顺便 一 提 ， 本 节 中 使 用 的 Ganglia 的 版 本 是 
3.0.5。 


5.2.4 将 Apache 的 进程 状态 图 表 化 


作为 同 Ganglia 中 增加 自 定义 图 表 的 示例 ， 下 面 介 绍 一 下 将 Apache 的 
进程 状态 图 表 化 的 方法 。 


若 开 启 Apache 所 附带 的 mod_status 模块 ， 就 可 以 立即 了 解 到 各 httpd 进 
程 的 工作 状态 ( 表 5.2.1) 。 例 如 ， 将 httpd.conf 按照 代码 清单 5.2.1 设 
置 的 话 ， 就 能 够 通过 访问 “http://example.org/server-status” 来 
查看 当前 的 状态 信息 。 而 且 访 问 /server-status?auto 的 话 ， 就 会 返 
回 便于 程序 处 理 的 响应 形式 。 


表 5.2.1 Apache 的 状态 






































程 ， 可 发 送 多 个 文件 ) 
































里 完成 《Graceful) 











尊 进 程 〈 整 理 Idle 的 worker) 





没有 当前 进程 





代码 清单 5.2.1 mod_status 的 设 定 





<Location /server-status> 
SetHandler server-status 


Order Deny,Allow 
Deny from all 
Allow from 192.168.31.6/24 


Allow from 127.0.0.1 
</Location> 


w315 Apache Process Status last 3days 





proc 











Wed Thu Fri 
(proc: min= 18,.00 avg= 29.35 max= SO,00) 
口 Starting up 图 Reading Request 国 Sendlng Reply 
国 Keepalive lread) 国 DNS Lookup 国 CLoslng connection 图 Logglng 
国 Gracefuly finishing 口 IdLe cleanup of worker 
加 Waiting for connection 





图 5.2.2 Apache 进程 状态 的 图 表 


在 图 5.2.2 中 ， 每 个 进程 的 状态 用 不 同 的 颜色 进行 了 区 分 。 通 过 制作 这 
样 的 岁 表 ， 比 起 简单 地 表述 为 “服务 器 索 忙 ”， 可 以 请 区 地 看 出 具体 是 由 
ed 超时 等 待 所 造成 的 ， 还 是 由 日 志 写 入 的 J/O 等 待 所 造成 的 ， 
一 目 了 然 。 


在 Ganglia 中 增加 图 表 的 方法 


在 Ganglia 中 增加 图 表 时 ， 如 果 要 用 一 个 图 表 描 述 一 个 监控 值 ， 则 只 需 
使 用 gmetric 命 令 即 可 。gmetric 将 使 用 组 播 来 播报 监控 值 等 信息 ， 
gmetad 则 会 将 监控 值 存储 下 来 。 


为 外 ， 将 多 个 监控 值 放 在 一 个 图 表 中 进行 描述 的 情况 下 ， 则 需要 看 手 修 
改 Ganglia 的 源码 。 因 为 各 个 监控 值 是 保存 在 不 同 的 图 表 文 件 中 的 ， 所 
以 要 想 办 法 来 统一 读 取 这 些 监控 值 ， 并 将 其 描述 在 一 个 图 表 中 。 


尝试 增加 多 个 图 表 
以 下 将 实际 尝试 增加 Apache 的 进程 状态 图 表 。 首 先进 行 代码 清单 5.2.1 


的 配置 ， 然 后 访问 “http://localhost/server-status?Auto”， 来 确 
认 是 否 能 得 到 应 答 。 














一 旦 得 到 确认 ， 就 会 访问 该 URL 并 处 理 其 应 答 ， 执 行使 用 gmetric 发 送 
监控 值 的 程序 ， 这 里 默认 每 60 秒 获取 一 次 Apache 的 进程 信息 ， 并 使 用 
了 通过 gmetric 发 送 数据 的 示例 程序 "。 


?该 示例 程序 在 源 代码 中 可 以 查看 〈apache-status) 。 本 书 的 源 代 码 可 以 通过 以 下 链接 下 载 : 
URL http://www .ituring.com.cn/book/download/b70de735-d478-466b-96ac-6782db82f642 














人 至此， 在 Ganglia 的 Web 界面 的 集群 视图 的 Metric 下 拉 菜 单 和 主机 页 
面 视图 下 ， 应 该 会 显示 个 别 监控 值 的 图 表 (ap-closing 等 以 ap- 开头 ) 。 


接 下 来 ， 对 监控 值 进行 归纳 总 结 ， 输 出 一 个 如 图 5.2.2 所 示 的 图 表 。 这 
里 对 变更 的 文件 进行 简单 的 说 明 。 全 部 的 变更 内 容 请 参考 源 代码 中 的 
ganglia.patch 。 








e conf.php、my-conf.php 


在 conf.php 中 引用 (include) 一 个 my-conf.php 文件 ， 有 关 本 次 变 
更 的 配置 项 目 在 my-conf.php 中 修改 


functions.php 


增加 run_apache 函数 ， 通 过 将 相关 参数 传递 到 主机 ， 并 根据 传递 的 
boolean 值 来 决定 是 否 生 成 Apache 图 表 。 这 里 只 是 单纯 地 通过 主机 
名 进行 判断 


graph.php 


变更 较 多 行 的 是 graph.php， 但 是 并 不 复杂 。 这 里 只 是 用 RRDtool 
0 因为 读 取 的 数据 较 多 ， 所 以 行 数 也 随 
之 增加 





templates/default/host_view.tpl、host_view.php 


定制 主机 视图 。 在 模版 中 通过 “functional” 标 签 增加 插入 点 ， 在 
host_view.php 中 ， 当 run_apache 为 真 时 ， 就 将 “functional” 标 签 分 配 
到 显示 Apache 图 表 的 HTML 文件 中 


header.php 


在 集群 视图 的 Metric 下 拉 荣 单 中 显示 Apache 的 图 表 
(Apache_Proc_report) 


其 他 的 目 定义 图 表 

除了 上 述 列举 的 图 表 之 外 ， 还 有 其 他 一 些 有 用 的 图 表 。 和 之 前 的 
Apache 进程 状态 的 图 表 类 似 ， 只 需 目 定义 Ganglia 束 可 以 生成 ， 大 家 不 
1 开光 


的 各 种 缓存 〈 碍 询 缓存 和 密 钥 缓存 等 ) 命中 率 的 图 表 (图 
5.2.3 


MySQL 每 秒 处 理 的 查询 数 的 图 表 〈 图 5.2.3 @) 


MySQL 的 SELECT、INSERT、UPDATE、DELETE 查询 比例 的 
图 表 (图 5.2.3 @) 


MySQL 的 InnoDB 的 表 空 间 剩余 量 的 图 表 (图 5.2.3 @) 
MySQL 连接 数 的 图 表 (图 5.2.3 @) 
Tomcat 的 堆 内 存 使 用 状况 的 图 表 ( 图 5.2.3 @) 





各 各 种 缓存 的 命中 率 全 单位 时 间 的 查询 数 
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图 5.2.3 自 定义 图 表 


5.3 ”高 效 的 服务 器 管理 一 Puppet 
5.3.1 实现 高 效 的 服务 器 管理 的 工具 Puppet 


由 于 现行 的 服务 正 逐 步 趋同 于 大 规模 化 ， 随 之 而 来 的 是 服务 器 台数 和 服 
务 器 省 理 缆 用 的 增加 。 而 如 果 将 提供 个 人 服务 的 一 台 到 数 全 不 等 的 服务 
融 的 管理 方法 应 用 到 企业 的 数 百 合 到 数 千 台 不 等 的 服务 器 的 管理 上 ， 惑 
需要 采取 适当 的 手段 才能 完成 。 为 此 ， 对 于 已 成 规模 的 企业 服务 器 管理 
来 说 ， 不 仅 需 要 高 效 、 准 确 地 维持 平衡 的 运行 环境 ， 而 且 还 可 能 需要 将 
配置 的 变更 想 办 法 同步 到 所 有 服务 器 上 。 

Puppet 是 一 个 能 够 实现 高 效 地 管理 服务 器 的 工具 ， 并 且 适 用 于 大 规模 


的 运行 环境 。 通 过 使 用 Puppet， 原 本 需要 手动 登录 各 个 服务 器 进行 的 操 
作 现 在 基本 上 都 可 以 目 动 完成 了 。 例 如 : 














10URL http://puppet.reductivelabs.com/ 
。 投入 新 型 服务 器 
。 变更 已 有 服务 器 的 配置 


通过 使 用 Puppet， 以 上 两 种 工作 将 变 得 更 加 轻松 。 而 且 还 能 避免 因 人 为 
下 忽而 未 记 进行 茶 些 配置 。 


本 节 中 所 介绍 的 内 容 以 CentOS 5.0 的 Puppet 0.24.4 版 本 为 准 。 








5.3.2 ”Puppet 的 概要 


Puppet 是 由 Reductive Labs 开发 ， 使 用 Ruby 语言 描述 的 开源 服务 器 上 自 
动 化 管理 工具 。 


在 Puppet 的 各 服务 器 Manifest〈 配 置 文件 ) 中 ， 各 个 Manifest 通过 类 进 

行 定义 ， 而 且 定 义 新 的 Manifest 时 还 可 以 继承 已 经 定义 好 的 旧 的 

Manifest 等 ， 因 此 其 具有 面 癌 对 象 的 灵活 性 的 特性 。Puppet 于 2003 年 

最 近 一 两 年 得 到 了 越 来 越 多 的 关注 ， 国 内 也 有 一 些 大 企业 引 
Puppet 。 





Puppet〈 图 5.3.1) 通过 在 各 个 服务 器 上 运行 的 puppetd 及 管理 服务 器 上 
运行 的 puppetmasterd 这 两 个 守护 程序 来 进行 运作 。 每 个 服务 器 的 
puppetd 会 定期 “默认 30 分 钟 ) 癌 puppetmasterd 发 出 询问 ， 把 得 出 的 
结论 与 现状 进行 对 比 ， 以 更 新 相应 的 服务 器 配置 。 此 时 ， 配 置 文件 可 以 
从 puppetmasterd 下 载 。 当 然 ， 也 可 以 不 进行 定期 的 询问 ， 而 是 直接 运 
行 puppetd 命令 ， 以 确认 并 更 新 相应 的 服务 器 配置 。 男 外 ， 通 过 在 
na 服务 左上 执行 puppeturn 命 令 ， 也 可 以 更 新 相应 的 服务 器 
配置 。 


Puppet 服务 器 
( puppetmasterd ) 






通过 puppetd 进行 访问 
并 更 新 相应 的 配置 


人 点 节点 
( puppetd )| |{ puppetd) 


图 5.3.1 使 用 Puppet 管理 服务 器 





puppetd 和 puppetmasterd 之 间 的 通信 还 采用 了 SSL 加 密 设 计 以 确保 安 
ca 


5.3.3 Puppet 的 配置 


本 节 将 以 Apache 的 Web 服务 器 的 设 定 为 例 ， 来 讲述 Puppet 配置 的 概 
要 。Puppet 的 配置 可 分 为 以 下 两 个 部 分 : 


。 Puppet 自身 的 配置 (/etc/puppet/puppet.conf) 
。 部 署 由 了 Puppet 设 定 的 服务 器 配置 内 容 的 配置 文件 (Manifest) 


这 里 对 Manifest 的 内 容 进 行进 一 步 说 明 。 在 Puppet 的 Manifest 中 ， 节 
点 《作为 puppetd 的 配置 对 象 的 服务 器 ， 中 会 被 分 配对 各 服务 器 的 配置 
进行 定义 的 类 。 此 外 ， 类 还 能 像 面 向 对 象 的 语言 那样 继承 其 他 类 。 该 配 
置 通常 保存 在 /etc/puppet/manifests/ 中 。 若 将 全 部 的 配置 都 集中 在 一 个 
文件 进行 描述 的 话 ， 就 会 导致 文件 变 得 很 大 ， 所 以 建议 根据 服务 器 的 功 
能 等 进行 有 效 的 划分 。 
节点 的 定义 
首先 ， 对 代表 各 个 服务 器 的 节点 的 配置 内 容 进 行 定 义 。 这 里 并 不 直接 进 
行 具体 的 配置 操作 ， 而 是 通过 指定 配置 集合 的 类 使 其 自动 完成 这 些 配置 
操作 。 一 个 节点 能 够 指定 多 个 类 。 代 人 码 清单 5.3.1 中 就 为 配置 对 象 的 服 
务 器 〈testserver) 通过 Apache 的 mod_perl 模块 指定 了 Web 服务 器 的 类 
Capache-mod perl) 。 


代码 清单 5.3.1 市 点 定义 文件 (nodes.pp) 


node testserver { 
include apache-mod perl 
} 


类 的 定义 
类 是 具体 配置 的 集合 。 通 过 继承 其 他 的 类 ， 能 够 统一 定义 具有 类 似 功 能 
的 服务 器 的 相同 配置 。 


代码 清单 5.3.2 所 显示 的 apache-mod_perl 类 中 定义 了 各 种 配置 项 目 ， 如 
是 否 安装 了 各 种 rpm 软件 包 (httpd、mod_perl) ，httpd.conf 是 否 是 最 
新 版 ，httpd 是 否 已 经 被 启动 等 。 接 下 来 ， 对 具体 的 配置 内 容 进 行 说 

明 。 


























通过 代码 清单 5.3.2 @ 的 package 的 声明 ， 可 以 发 现 这 里 指定 安装 了 
httpd、mod_perl、perl-libapredq2 的 软件 包 (ensure =》> 
installed) 。 如 果 还 未 安装 ， 则 会 使 用 包 管 理 系统 自动 进行 安装 。 





通过 代码 清单 5.3.2 @ 的 configfile 的 声明 ， 可 以 配置 httpd.conf 及 
sysconfig/httpd 这 两 个 文件 。require => Package["httpd- 
mod_perl"] 语句 表明 在 软件 包 被 安装 后 ， 就 开始 执行 文件 的 分 发 行 
为 。configfile 并 非 Puppet 中 默认 配置 的 声明 ， 而 是 由 后 面 叙 述 的 
defined 的 声明 扩充 而 来 的 。 实 际 上 被 分 发 的 文件 的 地 址 是 由 configfile 
声明 中 的 source 属性 指定 的 。puppetmasterd 同样 也 兼容 文件 服务 器 ， 
可 以 将 指定 的 文件 分 发 到 目标 服务 器 中 。 


通过 代码 清单 5.3.2 @ 的 user 的 声明 ， 可 以 对 apache 的 用 户 进行 定义 。 
从 其 官方 文档 中 可 以 得 知 ， 这 里 是 可 以 配置 password 的 ， 但 现行 的 版 
本 中 被 注释 挥 了 ， 因 此 需要 逐 台 为 服务 器 设 定 password。 


通过 代码 清单 5.3.2 @ 的 service 的 声明 ， 可 以 发 现 这 里 启动 了 httpd 进 
程 ， 并 定义 了 在 启动 时 通过 chkconfig 执行 。 通 过 subscribe => 
[File[$path], File[$sysconfigpath], Package['httpd"'], 
Package[ 'mod_perl'] ] 的 描述 ， 可 以 在 安装 及 更 新 包 ， 以 及 更 新 配 
置 文件 时 自动 重 局 httpd 进程 。 男 外 通过 enable => true 的 描述 ， 可 
以 在 服务 器 重启 时 上 自动 启动 服务 。 而 在 手动 进行 管理 时 ， 往 往 会 忘记 将 
其 设 定 为 自动 启动 。 


代码 清单 5.3.2 加 的 fle 声明 中 定义 了 /ver/www 目录 的 属性 。 


代码 清单 5.3.2 ”类 定义 文件 (apache-mod_perl.pp) 





























class apache-mod perl { 
package { httpd: © 
ensure => installed 


} 


package { mod_ perl: 
ensure => installed 


} 


package { perl-libapreq2: 
ensure => installed 


} 


$path = '/etc/httpd/conf/httpd.conf' 
configfile { "$path": <*@ 
ource => "/apache-mod perl/httpd.conf", 
ode => 644， 


equire => Package[ "httpd-mod_per]1”"] 
} 


$sysconfigpath = '/etc/sysconfig/httpd' 
configfile { "$sysconfigpath": 
source => "/apache-mod perl/sysconfig.httpd", 
mode => 644， 
require => Package["httpd-mod perl"] 
} 


user { apache: «© 
ensure => present, 
uid => 48， 
gid => 48 

} 


service { httpd: «©@ 
hasrestart => true, 
hasstatus => true, 
ensure => running, 
subscribe => [ File[$path], File[$sysconfigpath], Package['httpd-mod_pe 
enable => true 


} 


file{ <® 
"/var/www": owner => apache, group => apache, mode => 755; 
} 
} 





确认 配置 是 否 有 效 


将 这 些 节 点 定义 和 类 定义 文件 读 入 puppetmasterd， 在 testserver 中 按 以 
下 方式 运行 puppetd，testserver 就 会 启动 Apache 的 mod_per 模块 ， 使 其 
作为 Web 服务 器 正确 运行 。 假 设 puppetmasterd 运行 的 服务 器 的 IP 是 
192.168.0.1， 即 : 


puppetd -o -v --server 192.168.6.1 


硅 正确 地 进行 了 配置 ， 就 会 得 到 以 下 输出 : 





info: Caching configuration at /var/lib/puppet/localconfig.yaml 
notice: Starting configuration run 


notice: Finished configuration run in 1.27 seconds 


5.3.4 配置 文件 的 语法 

Puppet 配置 文件 的 语法 是 Puppet 独 目 定义 的 ， 大 致 类 似 Ruby 的 语法 。 
下 面 对 其 进行 简单 的 讲解 。 在 官方 文档 中 还 有 详细 的 说 明 ， 有 兴趣 的 话 
可 以 参考 。 

资源 的 定义 


配置 文件 等 的 资源 (Resource) 的 集合 ， 包 含 类 (Class) 、 了 函数 
CDefinition ) 、 节 点 (Node) 三 个 种 类 。 











。 一 一 类 
类 可 以 定义 多 个 资源 的 集合 。 在 一 个 主机 上 只 能 创建 一 个 类 的 实 
例 。 下 面 的 unix 类 中 定义 了 /etc/passed 文件 与 /etc/shadow 文件 的 
属性 : 


class unix { 
file { 
"/etc/passwd": owner => root, group => root, mode => 644; 


"/etc/shadow": owner => root, group => root, mode => 446， 
} 
} 





也 可 以 继承 其 他 类 ， 只 修改 其 中 的 一 部 分 。 例 如 像 下 面 这 样 将 文件 
所 属 组 由 root 变更 为 wheel : 


class freebsd inherits unix { 
File["/etc/passwd"|] { group => wheel } 


File["/etc/shadow"|] { group => wheel } 





。 一 一 函数 


对 变量 进行 操作 时 可 以 定义 相应 的 函数 。 函 数 与 类 不 同 ， 不 可 以 进 
行 继 承 操作 。 男 外 在 一 个 主机 上 可 以 定义 多 个 函数 ， 这 也 是 函数 与 


类 的 不 同 后。 


代码 清单 5.3.3 中 定义 了 configfile 函数 ， 设 定 了 一 些 参数 的 默认 
值 。 


代码 清单 5.3.3 ”configfile 函数 的 定义 和 默认 值 的 设 定 


define configfile($owner = root, $group = root, $mode = 644， 
$source, $backup = false, $recurse = false, $ensure = file) { 
file { $name: 
mode => $mode, 
owner => $owner， 
group => $group， 
backup => $backup, 
recurse => $recurse, 
ensure => $ensure, 
source => "puppet://$server/config$source" 
} 
} 


$path = '/etc/httpd/conf/httpd.conf' 
configfile { "$path": 
source => "/apache-mod perl/httpd.conf", 
mode => 644， 
require => Package["httpd-mod_ perl"] 
} 





节点 


节点 中 定义 的 内 容 与 类 相同 ， 而 且 能 够 在 真正 的 服务 器 上 生效 。 可 
以 使 用 hostname 作为 主机 的 标识 符 ， 而 不 使 用 卫 地 址 。 以 下 是 将 
apache-mod_perl 类 的 设 定 同步 到 testserver 服务 器 上 : 





node testserver { 
include apache-mod perl 


} 





各 个 类 的 实体 资源 可 以 根据 Type( 类 型 ) 进行 定义 。Type 即 fle( 文 
件 ) 或 package( 包 ) 等 具体 的 设 定 项 目 。 





file 

在 “file” 中 可 以 定义 文件 的 属性 。 "0 sources， 可 以 从 
puppetmasterd 上 下 载 文 件 。 另外 ， 过 定义 content， 还 可 以 直接 
写 入 内 容 ， 或 者 使 用 模板 功能 

以 下 指定 了 /etc/passwd 文件 的 所 有 者 与 权限 : 


file { 


"/etc/passwd": owner => root, group => root, mode => 644; 


} 








package 


“package” 中 定义 了 包 。 通 过 指定 ensure =>installed， 可 以 在 没 
安装 包 的 情况 下 ， 在 操作 系统 上 安装 这 些 包 。 例 如 在 Red Hat 系统 
上 ， 通 过 yum 命 令 安 装 rpm 包 ; 在 Debian 系统 上 ， 通 过 apt-get 命 
令 安装 deb 包 等 ， 可 以 根据 操作 系统 的 不 同 进行 包 的 安装 。 


以 下 是 安装 mysql 包 的 定义 : 


package { mysql: 
ensure => installed, 


} 





eXeC 


在 “exec” 中 可 以 执行 任意 的 命令 。 例 如 在 下 例 中 ， 更 新 完 iptables 
的 配置 文件 后 ， 会 重启 iptables。 





exec { "/etc/init.d/iptables stop && /etc/init.d/iptables start": 


subscribe => File["/etc/sysconfig/iptables"|], 
} 





service 


“service” 中 定义 了 服务 (进程 》。 具 体 可 以 定义 服务 的 局 动 状态 及 
重启 时 的 行为 。 





以 下 代码 定义 了 httpd 服务 的 运行 ensure=>running) 以 及 在 操 
作 系 统 启动 时 自动 启动 服务 (enable=>true) : 





service { httpd : 
ensure => running, 


enable => true 


} 





对 各 个 服务 器 的 配置 进行 微调 


在 要 针对 各 个 服务 器 对 设 定 项 目 进行 微调 ， 可 以 使 用 Puppet 的 
facterlibrary 变量 ， 来 完成 配置 的 调整 工作 。 例 如 通过 访问 
$operatingsystem 变量 ， 可 以 在 Solaris 和 default 的 情况 下 选择 不 同 的 文 
件 配置 路 径 。 











path => $operatingsystem ? { 
solaris => "/usr/local/etc/ssh/sshd config", 


default => "/etc/ssh/sshd config" 





在 命令 行 上 执行 facter 命 令 ， 可 以 浏览 除 $operatingsystem 以 外 的 各 变 
量 的 使 用 方法 。 


资源 间 的 依赖 关系 


通过 定义 资源 间 的 依赖 关系 ， 可 以 指定 配置 生效 的 顺序 ， 以 及 配置 生效 
所 需 重启 的 服务 。 例 如 在 更 新 httpd.onf 后 ， 就 需要 重启 httpd 以 使 配置 
生效 。 这 样 做 的 目的 是 为 了 避免 配置 文件 更 新 后 因为 没有 重启 服务 而 造 
成 配置 无 效 的 情况 发 生 。 


在 下 面 的 例子 中 ， 通 过 在 service 函数 中 定义 subscribe 变量 的 值 ， 设 定 
了 /etc/httpd/conf/httpd.conf 配置 文件 与 httpd 服务 的 依赖 关系。 通过 这 
样 的 配置 ， 在 使 用 Puppet 时 知 发 生 /etc/httpd/conf/httpd.conf 配置 文件 更 
新 的 情况 ， 就 会 自动 重启 httpd 服务 以 使 更 新 生效 。 














$path = "/etc/httpd/conf/httpd.conf" 
configfile { "$path": 
source => "/apache-mod perl/httpd.conf", 


} 


mode => 644， 


service { httpd: 


hasrestart => true, 

hasstatus => true, 

ensure => running, 

subscribe => [ File[$path] ]， 
enable => true 





通过 模板 完成 Manifest 文件 的 定义 
Puppet 的 特点 就 是 可 以 根据 用 途 ， 使 用 模板 自 定 义 复杂 的 Manifest 文 


J 








并 同时 进行 配置 的 分 发 操作 。 在 此 以 DualMaster( 双 问 同步 ) 


MySQL 类 与 iptables 类 为 例 进行 说 明 。 


DualMasterMySQL 类 





MySQL 的 配置 文件 (my.cnf) ， 如 server_id 和 同步 的 设 定 、 双 问 
同步 的 设 定 等 ， 在 不 同 的 服务 器 中 这 些 配置 都 是 不 同 的 。 因 此 ， 通 
过 使 用 模板 功能 ， 可 以 让 描述 工作 变 得 更 简洁 。 在 该 类 中 ， 通 过 在 
各 市 点 的 定义 中 传递 参数 来 调整 配置 文件 。 


首先 ， 在 代码 清单 5.3.4 中 定义 mysql-master-conf 函数 ; 接着， 在 
代码 清单 5.3.5 的 节点 的 配置 中 设 定 server_id、master_host 等 参数 
言 息 ， 最 后 ， 在 代码 清单 5.3.6 的 multimaster-my.cnf 中 定义 模板 。 


进行 以 上 配置 后 ， 运 行 puppetd， 模 板 就 可 以 根据 server_id 或 
master_host 等 传递 的 参数 值 ， 生 成 相应 的 配置 文件 ， 完 成 实际 的 服 
务 器 的 配置 。 在 此 需要 注意 的 是 ， 这 里 之 所 以 不 是 “server-id” 而 

是 “server_id”， 是 因为 Puppet 的 语言 规范 不 允许 参数 中 出 现 “-”。 


代码 清单 5.3.4 mysql-master-conf 函数 








define mysql-master-conf($path, $server _ id, $master host = false, 
$auto increment increment = false , $auto increment 
_offset = false, $log bin = false, $log slave updates = false， 


$innodb = false, $replace 
templatefile { $path: 


true) { 


source => "mysql/multimaster-my.cnf.erb", 
notify => Service[mysqld], 
replace => $replace 


} 
} 





代码 清单 5.3.5 ”mysqldb 节点 的 定义 


node mysqldb { 
mysql-master-conf {"my.cnf": 
path => "/etc/my.cnf", 
server id => "1661"”， 
master _ host => "192.168.1.1", 
auto increment increment => "16", 
auto increment offset = 





代码 清单 5.3.6 ”multimaster-my.cnf (摘录 ) 


server-id = <%= server id %> 
log-bin 


master-host = <%= master _ host %> 
master-user = repli 
<% if auto increment increment then -%> 


auto increment increment = <%= auto increment increment %> 
<% end -%> 

<% if auto increment offset then -%> 

auto increment offset = <%= auto increment offset %> 

<% end -%> 





iptables 类 


在 LVS《【〈 和 负载 均衡 集群 ) 中 根据 DSR 动 态 路 由 协议 ) 进行 
iptables 设 定时 ， 需 要 根据 主机 的 用 途 定 义 不 同 的 VIP。 因 此 这 里 
每 个 VIP 的 设 定 文件 都 不 同 ， 若 一 个 一 个 地 去 准备 的 话 就 比较 繁 
琐 ， 而 通过 在 iptables 类 中 使 用 模板 功能 ， 就 可 以 在 定义 节点 时 传 
递 相应 的 参数 ， 生 成 恰当 的 配置 文件 。 


node foobar { 








iptables-lvs-conf {"iptables": 
path => "/etc/sysconfig/iptables", 
lvs_iptables => "59.106.1608.97:868" 
} 
} 





以 上 在 iptables-lvs-conf 这 个 独立 的 函数 中 完成 了 iptables 的 设 定 。 
path 变量 是 文件 的 配置 路 径 ，lvs_iptables 变量 是 iptables 中 的 内 
容 。 在 这 里 定义 为 了 “59.166.168.97:86”， 实 际 上 执行 的 是 : 


/sbin/iptables -t nat -A PREROUTING -d 59.166.168.97 -p tcp -j REDIREC 


另外 ， 如 果 定 义 为 “59.166.168.97:86:81”， 实 际 就 会 执行 : 


/sbin/iptables -t nat -A PREROUTING -d 59.166.168.97 -p tcp -m tcp --d 





在 代码 清单 5.3.7 中 定义 了 iptables-lvs-conf 函数 。 这 里 通过 source 
变量 定义 了 模板 ， 通 过 notify 变量 指定 了 在 模板 更 新 时 重启 
iptables。 templatefile 是 通过 functions/utils.pp 定义 的 函数 ， 会 生成 
相应 的 模板 。 


在 代码 清单 5.3.8 中 定义 iptables 类 。 








configifle 中 包含 的 iptables_check.sh 是 检测 是 否 设 定 了 iptables 的 
命令 。 由 于 如 果 在 文件 配置 的 路 径 中 指定 了 原本 就 不 存在 的 目录 就 
会 造成 错误 ， 因 此 这 里 设置 为 了 /sr/bin。 在 exec 的 定义 中 ， 通 过 
订阅 (Subscribe〉configifle 生成 的 文件 ， 若 发 生 了 
sysconfig/iptables 的 变更 ， 就 会 进行 重启 操作 。 


最 后 的 service 定义 指定 了 执行 iptables。 为 了 监控 iptables 服务 的 
状态 ， 使 用 了 【在 代码 清单 5.3.8 的 @ 处 ) 配置 好 的 
iptabjes_check.sh 。 


代码 清单 5.3.9 是 模板 文件 。 根 据 传递 的 参数 ， 生 成 适当 的 文件 。 
里 说 比较 理想 的 方式 古 将 需要 传递 的 参数 以 数组 的 形式 传递 ， 但 这 
不 符合 Puppet 的 语言 规范 中， 因此 需要 将 参数 断 开 为 多 个 参数 分 








别 进行 传输 。 
代码 清单 5.3.7 ”iptables-lvs-conf 函数 


define iptables-lvs-conf($path, $lvs iptables = []) { 
templatefile { $path: 
source => "iptables/lvs iptables.erb", 


notify => Service[iptables] 
} 
} 





代码 清单 5.3.8 ”iptables 类 


class iptables { 
package { iptables: 
ensure => installed 


} 


$path = '/etc/sysconfig/iptables' 
$binpath = '/usr/local/hatena/bin' 


$checkcmd path = '/usr/bin/iptables check.sh' <@ 
configfile { "$checkcmd path": 

owner => root, 

group => root, 

mode = 7555 

source => "/iptables/iptables check.sh", 


} 


exec { "/etc/init.d/iptables stop && /etc/init.d/iptables start": 
subscribe => File["/etc/sysconfig/iptables"], 
refreshonly => true, 


} 


service { "iptables": 
status => "$checkcmd path",， 
start => "/etc/init.d/iptables start", 
ensure => running, 
} 
} 





代码 清单 5.3.9 templates/iptables/lvs_iptables.erb 


# Generated by puppet 

*nat 

:PREROUTING ACCEPT [61806:3714608]] 

:POSTROUTING ACCEPT [42:5669] 

:OUTPUT ACCEPT [42:5669 ] 

<% lvs iptables.split(/,/).each do |lvs params| -%> 
<% lvs = lvs params.split(/:/) -%> 


-A PREROUTING -d <%= lvs[8] %> -p tcp -j REDIRECT<%= lvs.length > 2 
? " --dport #{lvs[2]}" : "" %><%= lvs.length > 1? " --to-ports 
#{lvs[1]}"” : "" %> 

<% end -%> 


COMMIT 
# Completed 














lipuppet 的 语言 规范 中 规定 了 传递 给 模板 的 参数 仅 限于 符合 要 求 的 字符 串 。 


5.3.5 ”通知 操作 日 志 


puppetd 确认 服务 器 的 配置 后 ， 会 根据 需要 变更 ( 没 必要 时 无 需 变更 ) 
该 服务 器 的 配置 。 这 时 变更 的 内 容 将 输出 到 syslog。 也 可 以 在 邮件 或 日 
志 中 进行 通知 。 











tagmail 


tagmail 的 功能 是 在 各 服务 器 中 使 用 Puppet 时 ， 通 过 邮件 发 送 日 
志 。 人 例如， 在 /etc/puppet/tagmail.conf 中 存在 如 下 记录 : 


all: userli@example.com 
apache: user2@example.com 


all 是 通知 全 部 的 变更 ， 通 过 指定 apache 等 的 标签 ， 可 以 将 与 标签 
相关 联 的 变更 进行 通知 。 标 签 能 够 在 每 个 类 中 定义 标签 名 。 为 外 ， 
因为 类 名 默认 是 标签 名 ， 所 以 还 可 以 对 类 名 进行 指定 。 





。 ——puppetmaster.log 


var/log/puppet/puppetmaster.log 中 会 输出 运行 结果 。 但 因为 此 处 的 
音 误 信 息 不 是 十 分 准确 ， 所 以 调试 程序 时 请 不 要 过 多 使 用 。 








report 

以 YAML 的 形式 输出 到 /var/lib/puppet/reports 中 。 每 次 生效 都 会 生 
成 一 个 文件 ， 不 生效 就 什么 都 不 会 生成 。 可 以 利用 其 他 工具 进行 处 
理 ， 并 生成 图 表 。 

一 puppetd 中 的 日 志 


像 下 面 这 样 在 各 服务 器 中 直接 启动 puppetd， 也 能 够 运行 puppetd。 


% sudo /usr/sbin/puppetd --server=192.168.0.1 -0o -Vv --waitforce 66 








因为 此 时 的 日 志 会 被 详细 地 输出 ， 因 此 在 调整 配置 的 时 候 ， 这 种 方 
法 就 更 具 参 考 性 。 帮 外， 通过 使 用 - -noop 参数 ， 可 以 在 不 重 写 配 
置 文件 的 情况 下 确认 之 前 进行 的 设 定 。 


5.3.6 ”运用 


在 Puppet 中 ， 因 为 大 多 数 的 配置 文件 都 能 够 简单 地 进行 更 新 ， 所 以 配 
置 错 误 的 影响 也 比较 大 。 例 如 在 sshd_config 配置 错误 时 ， 会 造成 无 法 
登录 系统 等 故障 。 正 因 如 此 ， 在 进行 大 规模 的 变更 时 ， 采 用 能 够 方便 地 
撤销 修改 的 方法 就 显得 尤为 重要 。 


为 此 可 以 考虑 以 下 方法 : 


。 在 应 用 到 所 有 服务 妖 之 前 ， 首 先 在 部 分 服务 妖 上 进行 测试 。 平 时 将 
puppetd 的 目 动 更 新 设 为 无 效 ， 在 测试 用 的 服务 需 中 运行 puppetd， 
如 果 没 有 问题 ， 再 将 puppetrun 应 用 到 所 有 的 服务 器 上 


采用 Subversion 对 配置 文件 进行 管理 。 通 过 将 /etc/puppet 目录 下 与 
Puppet 相关 联 的 配置 文件 全 部 托管 在 Subversion 中 进行 管理 ， 就 能 
实现 配置 文件 的 版 本 管理 。 据 此 可 以 奶 踪 过 去 的 变更 记录 ， 在 配置 
不 当 的 情况 下 还 能 回 深 到 之 前 的 配置 版 本 。 而 且 ， 还 可 以 对 
Subversion 不 同 版 本 分 支 的 快照 记录 使 用 make 命令 ， 在 配置 生效 
前 ， 使 用 --noop 参数 在 Puppet 中 测试 这 些 快照 的 应 用 效果 ， 事 先 
检查 配置 文件 的 语法 是 否 存 在 问题 














5.3.7 ”自动 配置 管理 工具 的 利 与 浆 


从 早先 的 cfengine 到 近期 的 Puppet， 这 些 都 是 著名 的 开源 (OSS) 自动 
配置 工具 。 这 些 工 具 虽 然 看 起 来 非常 方便 ， 但 在 实施 时 可 能 会 遇 到 一 些 


问题 。 


目 动 配置 工具 听 起 来 确实 是 个 很 不 错 的 选择 ， 但 实际 使 用 时 却 非 常 麻 
烦 。 以 下 整理 了 使 用 该 工具 时 可 能 会 遇 到 的 状况 。 


从 本 质 上 来 说 这 并 不 是 什么 创新 的 东西 


自动 配置 工具 只 是 将 原 有 手动 配置 的 工作 目 动 化 ， 仅 此 而 已 。 当 然 
人 们 通常 不 想 改 变 目 前 已 存 的 工作 流程 


要 记 的 东西 很 多 ， 非 闻 及 烦 


在 使 用 自动 配置 工具 配置 应 用 程序 的 时 候 ， 不 仅 要 记 住 应 用 程序 的 
配置 方法 ， 还 必须 为 应 用 程序 的 配置 做 一 些 准 备 工 作 。 常 常 让 人 怀 
疑 这 么 做 有 价值 


ee 
出 现 


通常 在 上 自动 配置 工具 托管 的 配置 文件 中 ， 不 能 人 为 地 修改 这 些 配置 
文件 ， 如 知人 和 修 改 ， 就 极 易 导致 故障 。 例 如 东 天 你 在 运行 目 动 配 置 工 
具 时 ， 无 意 间 履 关 了 手动 修正 的 部 分 ， 这 时 不 仅 系统 败 病 了 ， 目 动 
配置 工具 也 可 能 没 法 运行 了 ， 这 种 情况 很 有 可 能 发 生 。 而 且 一 旦 发 
生 ， 处 理 起 来 就 会 非常 玉手 。 当 遇 到 此 类 故障 时 ， 根 本 没有 充分 的 
时 间 去 调整 配置 ， 如 果 处 理 故 障 的 人 员 对 这 些 配置 参数 理解 得 不 够 
充分 ， 那 勿 忙 修改 可 能 会 埋 下 隐患 


这 样 看 来 ， 目 动 配置 工具 的 浆 端 好 像 太 大 了 ， 但 为 了 对 大 量 服务 器 进行 
高 效 的 管理 ， 目 动 配置 工具 就 很 有 存在 的 必要 。 例 如 在 变更 成 日 上 千 合 
服务 器 的 sshd_config 的 配置 文件 时 ， 利 用 配置 工具 就 可 以 轻松 地 完成 
操作 ， 这 真是 提高 效率 的 法 宝 啊 。 


在 应 用 这 种 自动 配置 工具 时 ， 哪 里 自动 哪里 手动 是 个 重要 的 问题 。 然 
而 ， 这 个 问题 并 没有 什么 一 般 性 的 标准 ， 通 常 要 根据 应 用 自动 配置 工具 

















































































































的 设备 规模 和 管理 人 员 的 干劲 来 决定 。 


我 们 的 目标 是 : 使 用 自动 配置 工具 ， 并 维持 民 好 的 运行 状态 。 通 常 比较 
适合 使 用 自动 配置 工具 的 有 以 下 两 种 情况 : 


。 设备 的 台数 很 多 时 
。 于 动 配置 容易 产生 玩 漏 时 




















Daemontools 


5.4 ”守护 进程 的 工作 管理 
5.4.1 ”守护 进程 的 异常 终止 


通常 在 系统 启动 时 都 会 自动 启动 守护 进程 (Daemon) ， 但 万 一 在 服务 

器 运行 过 程 中 守护 程序 意外 终止 ， 那 会 造成 多 么 严重 的 事态 呢 ?” 和 铬 Web 
服务 器 、 邮 件 服务 器 等 服务 意外 终止 的 话 倒是 很 容易 察觉 ， 但 察觉 守护 
进程 等 的 异常 就 比较 困难 。 


虽然 在 发 生意 外 情况 时 ， 有 一 些 自动 重启 的 安全 措施 兰 ， 但 /etc/init.d 
中 大 多 数 的 启动 脚本 可 能 都 不 具备 重启 的 功能 。 此 外 ， 在 对 各 个 启动 脚 
本 进行 进程 监控 的 同时 添加 重新 启动 的 处 理 是 比较 麻烦 的 。 


























?例如 MySQL 所 附带 的 mysqld_safe 脚本 等 。 


这 样 ， 一 个 叫 作 daemontools* 的 工具 就 应 势 而 出 了 。 该 工具 解决 了 守 
护 进 程 的 运行 管理 问题 。 本 节 中 我 们 就 来 介绍 一 下 daemontools (0.76 
版 本 ) 的 使 用 诀 窑 。 


13URL http://cr.yp.to/daemontools.html 和 daemontools 类 似 的 工具 还 有 
runit (http://smarden.org/runit/) 。 


























5.4.2 daemontools 


daemontools 工具 是 一 个 很 实用 的 软件 包 ， 它 负责 管理 守护 进程 的 开 
台 、 结 束 、 重 新 局 动 ， 以 及 进程 异常 终止 时 的 自动 启动 等 工作 。 


daemontools 是 通过 若干 个 程序 联合 对 守护 进程 进行 监控 和 管理 的 ， 有 具 
体 请 参阅 图 5.4.1。 





svscanboot 





图 5.4.1 daemontools 的 概要 图 

首先 ，svscanboot 启动 svscan。svscan 对 指定 的 目录 (默认 是 /service ) 
进行 监控 ， 在 增加 了 新 的 守护 进程 的 情况 下 启动 svscanboot。supervise 
运行 run 文件 ， 通 过 run 文件 启动 守护 进程 。 因 为 0 A 能 对 
一 个 守护 进程 启动 ， 在 此 由 svscan 对 多 个 supervise 进行 管 

使 用 svc 命 令 可 以 通过 supervise 传送 信号 到 守护 进程 。 

使 用 daemontools 的 原 

使 用 daemontools 有 以 下 两 个 原因 : 

@ 在 进程 终止 的 情况 下 ， 能 够 快速 地 自动 重启 

@ 能 够 简单 地 创建 守护 进程 


关于 第 一 个 原因 在 守护 进程 终止 的 情况 下 ，supervise 能 通过 监控 察觉 
并 迅速 地 重新 启动 ， 这 一 优势 非常 突出 。 此 外 还 可 以 防止 没有 注意 到 守 














护 进程 异常 终止 的 情况 出 现 。 


关于 第 二 个 原因 ， 通 常情 况 下 ， 要 作为 守护 进程 运行 ， 需 要 进行 各 种 处 
理 2 例如 : 

















1 在 某 些 操作 系统 中 ， 也 存在 集中 进行 这 些 处 理 的 daemon(3) 函数 。 














。 从 控制 端 断 开 

。 将 当前 目录 变更 为 根 目录 (7) 

。 将 标准 输入 输出 重 定 癌 到 /dev/null (或 者 其 他 文件 ) 
稍微 有 些 棘 手 。 

但 如 果 使 用 daemontools， 只 要 满足 某 个 条 件 《〈“ 详 情 后 述 ) ， 任 何 程序 
5 0 
成 为 守护 进程 的 条 件 .…… 在 前 台 运 行 


在 上 节 中 提 到 了 使 用 daemontools 创建 守护 进程 需要 满足 某 个 条 件 ， 这 
个 条 件 就 是 “在 前 台 (Foreground) 运行 ”。 


httpd、sshd 这 些 一 般 的 守护 进程 ， 由 于 是 在 后 台 进 行 folk 操作 的 ， 因 此 
不 在 daemontools 的 管理 下 。 和 守护 进程 中 提供 了 在 前 台 运 行 的 选项 ( 例 
如 sshd 中 的 -D 选 项 ) ， 奉 则 就 需要 使 用 daemontools 上 自 市 的 fghack 工 
.= 


在 自行 编写 守护 进程 的 情况 下 ， 只 需 使 用 while 或 for 进行 无 限 循环 ， 
在 程序 不 终止 的 前 提 下 ， 在 前 台 持 续 运 行 。 

另外 ，daemontools 中 还 附带 了 优秀 的 日 志 收 集 工 具 multilog。 但 要 使 
J 需要 将 守护 进程 的 标准 输出 (或 标准 错误 输出 ) 输 出 到 
日 :DA o 








5.4.3 ”守护 进程 的 管理 方法 


下 面 介 绍 守 护 进 程 的 创建 、 终 止 和 重启 的 操作 方法 。 
创建 守护 进程 
此 处 将 需要 创建 的 守护 进程 命名 为 “xxxd”。 


首先 ， 请 先 创 建 一 个 放置 这 些 守 护 进程 文件 的 目录 。 使 用 这 一 目录 来 整 
理 有 关 守 护 进程 的 文件 ， 可 以 方便 后 期 管理 。 具 体操 作 方 法 如 下 : 


。 /etc/daemon ~ 放置 守护 进程 的 子 目录 


。 /etc/daemon/xxxd -、xxxd 用 的 文件 夹 





接 下 来 ， 创 建 supervise 运行 的 /etc/daemon/xxxd/run 文件 。 这 是 一 个 典 
型 的 run 文件 卫 ，run 文件 通过 shell 脚本 进行 有 效用 户 的 变更 及 环境 变 
量 的 配置 后 ， 就 可 针对 程序 使 用 exec 命令 启动 相应 的 守护 进程 。 


3 在 以 下 页 面 中 可 查看 run 文件 的 示例 脚本 ， 请 参考 。 
URL http://smarden.org/runit/runscripts.html 

















代码 清单 5.4.1 中 展示 了 示例 代码 ， 以 下 进行 一 些 简 单 的 说 明 。 
@ 将 标准 错误 输出 重 定向 到 标准 输出 上 

@ 运用 后 面 的 指令 蔡 换 掉 该 进程 

全 变更 有 效用 户 

@@ 重 设 环境 变量 ， 配 置 必要 的 环境 变量 

加 知 env 子 目录 中 存在 文件 ， 则 据 此 设 定 环境 变量 

@ 执行 守护 进程 的 程序 


若 需 要 使 用 multilog 工 具 来 收集 日 志 ， 则 可 在 该 目录 下 创建 下 一 级 子 
目录 log 和 文件 log/run( 图 5.4.2、 代 码 清单 5.4.2) 。 


代码 清单 5.4.1 典型 的 run 文件 


#!/bin/sh 
exec 2>&1 <*@ 
exec \ <“@ 
setuidgid USERNAME \ <*@ 
env - PATH="/usr/local/bin:$PATH" \ <*@ 
envdir ./env \ «© 
/usr/local/bin/xxxd <*@ 


# mkdir /etc/daemon/xxxd/log 
# mkdir /etc/daemon/xxxd/log/main 
# chown USERNAME /etc/daemon/xxxd/log/main 





图 5.4.2 使 用 multilog 的 情况 
代码 清单 5.4.2 /etc/daemon/xxxd/log/run 


#1/bin/sh 


exec setuidgid USERNAME multilog t ./main 





启动 守护 进程 
在 启动 守护 进程 的 时 候 ， 需 要 在 svscan 监控 的 目录 (默认 为 /service 目 


录 ) 上 ， 创 建 指定 守护 进程 用 的 目录 的 符号 链接 ， 如 下 所 示 。 这 样 在 五 
秒 钟 内 就 应 该 会 运行 mn， 并 启动 守护 进程 。 


# ln -s /etc/daemon/xxxd /service/ 


停止 、 继 续 、 重 新 局 动 守护 进 程 
停止 、 继 续 、 重 新 启动 守护 进程 的 时 候 ， 请 使 用 daemontools 中 目 市 的 


svC 命 令 ( 表 5.4.1) 。 
表 5.4.1 停止 、 继 续 、 重 新 启动 
Fri ni 











行为 命令 说 明 











Sv 发 送 TERM 信 号 结束 进程 ， 此 处 并 不 重新 启动 


/service/xxxd 

















LF 程 不 存在 则 局 动 进程 ， 知 进程 处 于 停止 状态 则 让 进 


进 
继续 运行 


有 
svCc -U 右 
/service/xxxd 时 











2 发 送 TERM 信 和 号 


/service/xxxd 





停 用 守护 进程 
若 需 要 停 用 守护 进程 ， 在 删除 符号 链接 后 ， 需 要 使 用 svc 命令 释放 


supervise o 








# cd /service/xxxd 
# rm /service/xxxd 
# svc -dx . log 





+ 此 外 ， 以 下 内 容 也 需要 释放 

# mv /service/xxxd /service/ .xxxd 

# svc -dx /service/.xxxd /service/.xxxd/log 
# rm /service/ .xxxd 





发 送信 和 号 


在 表 5.4.1 中 写 明 了 使 用 svc 命令 可 以 发 送 TERM 信号 ， 而 其 他 的 信和 号 


也 同样 可 以 发 送 ( 表 5.4.2) 。 
表 5.4.2 能 够 使 用 svc 命令 发 送 的 信号 








Keepalived......run 文件 的 例子 @ 


这 里 介绍 两 个 run 文件 的 例子 。 第 一 个 是 运用 daemontools 管理 
keepalived 时 的 run 文件 ， 具 体 如 代码 清单 5.4.3 所 示 。 


代码 清单 5.4.3 ”keepalived 用 的 run 文件 


#1/bin/sh 
exec 2>&1 


exec /usr/local/sbin/keepalived -n -S 1 





这 里 Keepalived 指定 了 -n 〈--dont-fork) 选项 以 在 前 台 运 行 ， 在 使 用 
daemontools 管理 的 情况 下 可 以 使 用 该 选项 。 此 外 ， 在 这 个 例子 中 ， 并 
没有 使 用 multilog 来 记录 上 日志， 而 是 使 用 了 syslog 的 程序 模块 

CFacility) LOCAL1 进行 输出 。 在 无 盘 服务 器 无 法 记录 日 志 的 情况 下 ， 
或 者 想 要 将 日 志 集 中 管理 的 情况 下 ， 可 以 使 用 syslog 将 日 志 放 到 syslog 
服务 器 中 进行 记录 。 


自 编 的 监控 脚本 .…….run 文件 的 例子 @ 


第 二 个 是 介绍 运用 daemontools 管理 自 编 的 监控 脚本 的 例子 。 代 码 清 单 
5.4.4 是 run 文件 ， 和 代码 清单 5.4.3 的 处 理 是 相同 的 。 





代码 清单 5.4.4 目 编 的 监控 脚本 使 用 的 run 文件 


#!/bin/sh 
exec 2>&1 
exec \ 
setuidgid monitor \ 


env - PATH="/usr/local/bin:$PATH" AN 
envdir ./env \ 
/usr/local/bin/monitor-ping 








下 来 是 代码 清单 5.4.5。monitor-ping 是 监控 脚本 的 代码 (shell 脚 
a 


这 里 的 重点 是 要 进行 无 限 循环 (while true; do) 以 确保 持 绢 和 站 
但 此 处 若 全 力 进 行 无 限 循 环 可 能 会 占用 主机 过 多 的 资源 ， 可 以 通 
sleep 设 置 一 定 的 间 鞭 。 


代码 清单 5.4.5 ”监控 脚本 的 代码 (monitor-ping) 








#!/bin/sh 
[ "$DEBUG" = '1' ] && TRACE='echo DEBUG:' || TRACE=: 
INTERVAL=${INTERVAL :=5} 


$TRACE "TARGET_ HOSTS: $TARGET_HOSTS" 
$TRACE "INTERVAL: $INTERVAL" 


alert() { 
host=$1 
# TODO: implement 
echo "$host is down!!" 


} 


monitor() { 
host=$1 
if ping -qn -c 1 "$host" >/dev/null 2>&1; then 
$TRACE "OK $host" 
else 
$TRACE "NG $host" 
alert $host 
fi 
} 


while true; do 


for h in $TARGET_ HOSTS; do 
monitor $h 
done 
sleep $INTERVAL 
done 





此 外 ， 在 代码 清单 5.4.5 的 脚本 中 ， 还 引用 了 脚本 以 外 设 定 的 变量 





CTARGET HOSTS、INTERVAL、DEBUG) 。 因 为 在 run 文件 中 使 用 
了 envdir， 所 以 像 几 5.4.3 那样 在 env 目录 下 创建 与 变量 同名 的 文件 ， 
并 将 文件 的 内 容 设 为 变量 的 值 ， 环 境 变量 就 会 反映 到 monitor-ping 上 。 
这 样 一 来 ， 即 便 监 控 的 主机 数量 有 所 增加 ， 在 不 重 写 run 文件 或 监控 脚 
本 monitor-ping 的 情况 下 ， 也 能 改变 其 行为 。 





# echo 'host1 host2 host3” > env/TARGET_HOSTS 
# echo 16 > env/INTERVAL 
# svc -t /service/monitor-ping 


图 5.4.3 ”使 用 envdir 指定 环境 变量 的 方法 
5.4.4 ”daemontools 的 实用 技巧 


最 后 介绍 使 用 守护 进程 工具 daemontools 时 的 技巧 :控制 服务 的 启动 顺 
序 和 常用 的 shell 函数 。 


控制 所 依赖 的 服务 的 局 动 顺序 


在 使 用 daemontools 管理 的 守护 进程 和 使 用 rc 脚本 启动 的 守护 进程 之 
间 ， 有 了 时 存在 启动 顺序 的 问题 。Dns 就 是 其 中 一 例 。 


daemontools 的 开发 者 也 开发 了 一 个 名 为 djbdns 的 DNS 服务 器 。 使 用 
daemontools 可 以 管理 djbdns， 在 通过 /etc/inittab 启动 daemontools (的 

svscanboot) 的 情况 下 ， 假 设 运用 rc 脚本 启动 守护 进程 ， 奉 启动 时 不 能 
解析 DNS 名 称 ， 就 可 能 会 造成 无 法 启动 或 运行 异常 等 情况 。 这 是 因为 
在 daemontools 管理 下 的 djbdbs 启动 前 ， 即 进行 DNS 名 称 解 析 前 ， 需 

要 确保 rc 脚本 的 守护 进程 已 经 被 司 动 。 











16URL http://cr.yp.to/djbdns.html 


要 解决 这 个 问题 需要 下 一 些 工 夫 。 以 下 介绍 使 用 KLab 的 方法 以 供 大 家 
参考 。 

请 参阅 代码 清单 5.4.6。 首 先 ， 编 辑 /etc/inittab， 启 动 svscanboot ; 接 
着 ， 启 动 DNS 服务 器 ， 记 录 需 要 启动 的 守护 进程 的 启动 命令 ， 并 编写 
相应 的 启动 脚本 。 各 脚本 启动 的 服务 如 表 5.4.3 所 示 。 


代码 清单 5.4.6”/etc/inittab (摘录 ) 


S 





SV:123456:respawn:/command/svscanboot 
LG:2345:wait:/etc/init.d/log >/dev/null 


SH:2345:wait:/etc/init.d/share >/dev/null 
WE:2345:wait:/etc/init.d/web >/dev/null 





表 5.4.3 启动 的 守护 进程 


网 络 文件 系统 CNFS) 的 客户 端 


另外 ， 在 这 个 启动 脚本 (Cetcwinit.dlog) 中 ， 实 现 了 类 似 于 代码 清单 
5.4.7 中 的 waitns 的 处 理 。 这 样 在 确认 解决 了 DNS 名 称 解析 的 问题 后 ， 
紧 接 着 就 启动 了 服务 用 的 守护 进程 。 


代码 清单 5.4.7 waitdns 

















waitdns() { 
while true; do 
dig 0127.6.6.1 +short +time=1 {DOMAINNAME} >/dev/null 2>&1 && break 
done 


} 





在 代码 清单 5.4.6 的 启动 脚本 中 有 三 行 waitt， 虽 然 waitdns 只 对 第 二 行 
/etc/init.d/log 是 必须 存在 的 ， 但 为 了 保险 起 见 ， 无 论 是 之 后 的 
/etc/init.d/share 还 是 /etc/init.d/web， 都 还 是 写 上 为 妙 。 




















17wait 只 在 操作 系统 启动 时 执行 一 次 ， 作 用 是 等 待 第 4 项 指定 的 进程 执行 结束 。 








常用 的 shell 函数 
以 下 介绍 笔者 在 实际 运用 中 常用 的 三 个 shell 函数 。 





daemonup 


在 /service 中 创建 符号 链接 。 登 录 、 启 动 守护 进程 (代码 清早 
5.4.8、 图 5.4.4) 。 





代码 清单 5.4.8 ”daemonup 


daemonup() { 
[ -z "$1" ] && return 


case $1 in 
DAEMONDIR=$1 
;; 

. 

DAEMONDIR=/etc/daemon/$1 
;; 

esac 

[ -d $DAEMONDIR ] || { echo "no such dir: $DAEMONDIR"; return; } 


d=$ (basename $DAEMONDIR) 
if [ ! -s "/service/$d" ]; then 
ln -snf ${DAEMONDIR} /service/ 
fi 
/command/svc -uy /service/$d >/dev/null 2>&1 





# daemonup monitor-ping 


(或 者 ) 
# daemonup /path/to/monitor-ping 


图 5.4.4 ”daemonup 的 使 用 示例 


daemondown 





与 daemonup 的 作用 正好 相反 。 停 止 、 删 除 守 护 进程 ， 并 从 /service 
中 删除 符号 链接 (代码 清单 5.4.9、 图 5.4.5) 。 


代码 清单 5.4.9 daemondown 


daemondown() { 
[ -z "$1" ] && return 
if [ -s /service/$1 ]; then 
mv /service/$1 /service/.$1 
/command/svc -dx /service/.$1 
if [ -d /service/.$1/log ]; then 
/command/svc -dx /service/.$1/log 


fi 
rm -f /service/.$1 
else 
echo "not found: /service/$1" 
fi 
} 





. daemondown monitor-ping 


图 5.4.5” daemondown 的 使 用 示例 





daemonstat 


显示 /service 下 的 守护 进程 的 启动 日 期 及 目 启 动 以 来 经 过 的 时 间 
(代码 清单 5.4.10、 图 5.4.6) 。 该 函数 能 够 使 只 显示 经 过 秒 数 的 
daemontools 中 附带 的 svstat 命令 的 输出 更 便于 阅读 。 


代码 清单 5.4.10 daemonstat 
daemonstat() { 


local -a ds 
if [ $# -gt 0 ]; then 
for i in "$@"; do 
ds[${#ds[@]}]=${i#/service/} 


done 


else 
ds="*" 
fi 
cd /service/ 


svstat ${ds[@]} | \ 


while read daemon state dsec pid sec dumy; do 

[ "$state" == "down" ] && sec=$dsec 

printf "%-26s %4s %8ds = %3ddays %062d:%602d:%602d, since %s\n" \ 
$daemon $state $sec 
$((sec / (66*+ 606* 24) )) 
$(( (sec / (60* 60 )) % 24 )) 
$(( (sec / 66) % 66 )) 
$((sec % 60)) 
"$(date -d "$sec seconds ago" "+%y/%m/%d %T")"; 





# daemonstat 


dhcpd : up 7417649s = 85days 20:27:29, since 67/16/65 65:21:57 
dnscache.in: up 5227391s = 66days 12:63:11，since 67/16/36 13:46:15 
dnscache. 1o: up 7417649s = 85days 20:27:29, since 67/16/65 65:21:57 


qmail: up 5637954s = 65days 66:65:54，Ssince 67/16/25 19:43:32 
qmqpd: up 7417649s = 85days 20:27:29, since 67/16/65 65:21:57 
smtpd: up 7417649s = 85days 20:27:29, since 67/16/65 65:21:57 
stone: up 7417649s = 85days 20:27:29, since 67/16/65 65:21:57 
tinydns.ex: up 7417649s = 85days 20:27:29, since 67/16/65 65:21:57 
tinydns.in: up 7417649s = 85days 26:27:29，Ssince 67/16/65 65:21:57 





图 5.4.6 ”daemonstat 的 使 用 示例 





5.5 ”网 络 引 导 的 应 用 一 一 PXE、initramfs 


5.5.1 网络 引 导 


网 络 引 导 (Network Boot) 是 指 在 设备 启动 时 从 网 络 上 获取 必要 的 资 
料 ， 以 在 本 机 完成 启动 工作 。 一 般 情况 下 设备 启动 是 由 BIOS 从 本 地 的 
便 舟 或 CD-ROM 等 外 存 设 备 调 取 启动 时 必要 的 Boot Loader (引导 加 载 
程序 ) 及 操作 系统 内 核 来 完成 的 。 网 络 引 导 则 与 此 不 同 ， 它 是 在 网 络 服 
务 器 上调 取 这 些 必 要 的 启动 文件 的 。 


网 络 引 导 的 特性 及 优势 


苛 使 用 网 络 引 导 ， 在 机 器 启动 时 束 无 需 在 本 地 部 署 外 存 设备 (例如 人 硬盘 
等 ) 了 。 由 于 网 络 引 导 是 在 网 络 上 取得 Boot Loader 及 操作 系统 内 核 

的 ， 因 此 在 实际 应 用 中 ， 与 通常 的 情况 相 比 ， 系 统 的 灵活 度 会 有 所 增 
加 。 特 别 是 在 网 络 引 导 上 应 用 initramfsl8 机 制 时 ， 灵 活性 更 为 突出 。 

















18 关 于 initramfs 的 机 制 可 以 参考 Linux 的 附带 文档 。 具 体 可 以 首先 在 kernel.org 等 网 站 获取 
Linux 内 核发 布 包 ， 然 后 通过 linux-2.6.X.X/Documentation/filesystems/ramfs-rootfs-initramfs.txt 
文件 就 可 以 了 解 到 了 。 











initramfs 是 指 在 内 核 挂 载 到 根 文 件 系 统 及 局 动 init 之 前 ， 仅 在 内 核 外 部 
运行 初始 化 的 机 制 。initramfs 的 主要 功能 是 在 将 内 核 挂 载 到 根 文件 系统 
时 ， 将 所 需 的 驱动 模块 加 载 到 内 核 。 


initramfs 的 实质 是 通过 cpio 工 具 来 收集 初始 化 所 需 的 文件 ， 并 对 文件 进 
行 gzip 压 缩 。 在 Boot Loader 将 内 核 读 取 到 到 内 存 时 ， 该 文件 也 会 和 内 
核 一 起 被 配置 在 内 存 上 。 如 果 内 存 上 存在 initramtfs 的 映像 ， 则 内 核 在 上 自 
号 初 始 化 结束 之 后 ， 挂 载 根 文件 之 前 ， 将 运行 initramfs 中 的 /init 程 

a 0 和 通常 启动 时 使 用 的 init 程序 不 同 ， 该 init 程序 
是 shell 脚本 。 


网 络 引 导 中 ，Boot Loader 在 从 文件 服务 器 上 读 取 内 核 时 ， 会 一 同 取 得 
initramfs。 这 意味 看 ， 即 便 事先 在 需要 启动 的 设备 上 没 做 任何 准备 ， 只 
0 系统 的 内 核 及 initramfs， 就 可 以 让 任何 机 器 局 动 
深 作 系统 。 





如 果 使 用 网 络 引 导 ， 局 动 操 作 系统 时 就 不 需要 磁盘 了 ， 即 将 操作 系统 运 
行 所 必要 的 文件 系统 都 存放 在 本 地 磁盘 之 外 ， 这 样 承 实现 了 典型 的 无 盘 
系统 。 在 无 盘 系 统 中 ， 根 系统 文件 放置 在 NFS (Network FileSystem， 
网 络 文件 系统 ) 蕊 或 MFS《〈 内 存 文件 系统 ，Memory File System) 上 。 


3 关于 在 Linux 操作 系统 中 将 NFS 0 系统 使 用 的 详情 ， 在 内 核 的 说 明文 档 


linux-2.6.X.X/Documentation/nfsroot.txt 中 有 详细 























通 利 便 盘 都 是 机 器 构成 要 素 中 故障 率 最 高 的 部 件 ， 所 以 使 用 无 盘 系 统 的 
话 ， 设 备 的 故障 率 就 会 大 幅度 减少 。 


5.5.2 网络 引 导 的 行为 ..…... PXE 


以 下 让 我 们 了 人 解 一 网 省 引导 有 的 行为 。 虽说 网 络 引 导 可 以 基于 不 同 的 方 
式 实 现 ， 但 当今 x86 架构 中 占据 主导 地 位 的 还 是 Intel 开发 的 PXE (Pre- 
eXecution Environment) 3。PXE 实际 上 就 是 在 网 卡 (NIC) 上 植 入 了 扩 
展 的 BIOS 模块 。PXE 的 引导 流程 如 下 (图 5.5.1) : 




















20URL http://www.pix.net/software/pxeboot/archive/pxespec.pdf 

PXE BIOS 自身 没有 相应 的 配置 项 目 ， 但 使 用 PXE 引导 需要 确保 DHCP 服务 器 的 正确 设 定 。 
以 下 网 页 中 有 PXELINUX 相关 的 说 明 ， 请 参考 。 

URL http://syslinux.zytor.com/pxe.php 
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@ 通常 情况 下 的 BIOS 进行 初始 化 操作 。 在 这 个 过 程 中 浏览 扩展 的 
BIOS， 登 录 PXE BIOS 


四 在 启动 设备 上 激活 PXE， 控 制 转移 到 PXE BIOS 


@ 接 到 控制 的 PXE BIOS 使 用 DHCP 获取 IP 地 址 等 信息 ， 准 备 IP 通 
信 


@@PXE BIOS 从 文件 服务 器 中 获取 Boot Loader 进行 启动 ， 继 续 控 
制 。 文 件 服务 器 的 地 址 和 Boot Loader 的 文件 名 可 以 从 步骤 人 @ 中 的 
DHCP 服务 器 获取 


加 Boot Loader 进行 启动 后 ， 从 步骤 人 @ 的 文件 服务 器 中 获取 Boot 
Loader 上 自身 的 配置 文件 。 文 件 服务 器 的 地 址 由 了 PXE BIOS 通知 给 Boot 


Loader 


@ Boot Loader 有 尼 动 内 核 后 ， 在 此 期 间 和 若 指 定 了 相应 的 配置 文件 ， 就 
会 从 文件 服务 器 取得 initramfs 文件 ， 并 将 其 和 内 核 一 起 配置 在 内 存 
上 ， 其 后 再 将 控制 移交 给 内 核 
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| s Boot Loader 
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-一 PXE BIOS 
2) 





配置 文件 请 求 | | initramfs | | 根 文 件 系 统 请 求 


“os 








图 5.5.1 PXE 引导 的 流程 * 


※ 本 案例 中 使 用 了 initramfs。 





如 果 移 交 给 内 核 进行 管理 ， 这 之 后 束 与 平常 的 局 动 没什么 区 别 。 使 用 的 
系统 内 核 也 没 必 要 特意 支持 PXE， 与 平常 一 样 使 用 就 可 以 了 。 


PXE BIOS 从 服务 器 中 获取 文件 时 ， 使 用 了 TFTP (Trivial File Transfer 
Protocol) 。 这 是 一 个 基于 UDP 的 简单 文件 传输 协议 ， 无 法 完成 验证 的 


动作 。 
以 下 对 PXE 引导 的 必要 事项 进行 归纳 整理 : 
。 支持 PXE 引导 的 网 卡 
近期 的 服务 器 设备 上 安装 的 网 卡 应 该 都 支持 该 技术 
。DHCP 服务 器 
为 PXE 引导 提供 必要 的 信息 





TFTP 服务 器 


PXE BIOS 在 取得 必要 的 文件 时 使 用 ， 需 要 文 持 atftpd 等 的 TSIZE 
选项 


支持 PXE 的 BootLoader 
PXE 引导 中 需要 使 用 支持 该 技术 的 Boot Loader。 有 支持 PXE 的 
GRUB?*!PXEGRUB， 以 及 SYSLINUX*? 的 PXE 版 
PXELINUX23 
。 内 核 

没有 必要 为 PXE 引导 准备 特别 的 系统 内 核 
。 供 根 文件 系统 初始 化 使 用 的 系统 (initramfs) 


各 要 将 根 文 件 系统 托管 到 内 存 文 件 系统 上 ， 则 此 项 上 必须; 除 此 以 外 
的 情况 下 ， 使 用 initramfs 就 能 够 灵活 构建 局 动 系统 


。 根 文件 系统 《的 内 容 ) 


无 论 使 用 什么 样 的 根 文 件 系 统 ， 为 了 确保 系统 的 运行 ， 都 需要 事 允 
以 茶 种 形式 准备 好 所 需 的 文件 








21URL http://www.gnu.org/software/grub/ 
2URL http://syslinux.zytor.com/ 


3URL http://syslinux.zytor.com/pxe.php 


搭建 无 盘 系 统 的 情况 下 ， 要 在 文件 服务 器 上 准备 供 根 文件 系统 使 用 的 文 
件 。 如 有 果 将 NFS 服务 名 直接 作为 根 文 件 系 统 挂 载 ， 则 应 该 先 将 其 设 为 
能 够 进行 NFS 挂 载 的 形式 ， 知 要 将 内 存 文件 系统 作为 根 文件 系统 使 
用 ， 则 应 该 先 将 其 设 为 便于 initramfs 初始 化 脚本 使 用 的 形式 4。 

“在 笔者 管理 的 环境 中 ， 根 文件 系统 使 用 的 文件 是 通过 tar 打包 放置 到 外 部 不 能 访问 的 web 服 


务 器 上 的 《根据 启动 的 服务 器 的 目的 不 同 ， 会 准备 多 个 使 用 tar 打包 的 文件 ) 。Initramfs 的 初 
始 化 脚本 通过 HTTP 取得 所 启动 的 系统 中 的 tar 文件 ， 并 在 内 存 文件 系统 上 解压 。 之 所 以 不 使 





















































用 PXE 使 用 的 TFTP 而 特意 使 用 HTTP， 是 因为 TFTP 的 文件 传输 速度 比 HITP 要 慢 很 多 。 


5.5.3 ”网络 引 导 的 应 用 实例 
下 文 将 以 笔者 管理 的 环境 为 例 ， 向 大 家 介绍 一 下 网 络 引 导 的 应 用 。 
负载 均衡 器 


负载 均衡 器 (点 无 疑问 使 用 了 LVS) 是 需要 关注 的 重点 。 每 当 硬 盘 遭 沉 
故障 时 ， 负 载 均衡 就 会 停止 工作 ， 这 会 为 维护 工作 帝 来 很 多 床 烦 ， 所 以 
笔者 使 用 无 盘 系 统 来 规避 此 问题 。 在 部 署 该 系统 后 ， 至 今 还 未 发 生 过 人 硬 
件 故 障 造成 负载 均衡 器 停止 工作 的 情况 。 


当然 也 并 不 是 说 不 使 用 硬盘 就 可 以 避免 故障 。 万 一 出 现 了 故障 ， 可 以 在 
众多 Web 服务 需 中 挪用 一 合作 为 备用 机 。 要 使 Web 服务 器 完成 负载 均 
衡器 的 工作 ， 只 需 将 其 作为 负载 均衡 器 进行 网 络 引 导 即 可 名 。 也 就 是 
说 ， 仅 仅 重 新 启动 一 台 机 器 就 可 以 完成 修复 工作 。 


5 在 实际 操作 中 ，Web 服务 器 与 负载 均衡 器 可 能 位 于 链 路 层 (OSI 的 第 二 层 ) 的 两 个 不 同 的 网 
络 中 ， 鉴 于 在 修复 时 没 空 插 拔 网 线 ， 因 此 在 布线 时 就 要 注意 将 所 用 的 设备 设计 到 同一 网 络 中 。 
如 果 需 要 分 离 链 路 层 ， 可 以 使 用 VLAN 进行 分 离 。 在 Web 服务 器 被 作为 负载 均衡 器 使 用 时 ， 
为 了 将 设备 加 入 到 所 需 的 VLAN 上 ， 就 要 变更 相应 的 交换 机 配置 。 


数据 库 服务 器 /文件 服务 器 


数据 库 服务 器 /文件 服务 器 也 可 以 应 用 网 络 引 导 。 但 需要 注意 不 能 将 数 
气 保 存 到 内 存 文件 系统 上 ， 因 为 无 论 从 容量 的 角度 还 是 从 数据 的 永久 性 
存储 的 角度 来 看 这 都 是 不 现实 的 ， 因 此 需要 将 数据 保存 到 使 用 RAID 元 
余 的 硬盘 上 ， 将 根 文 件 系 统 放 在 内 存 文件 系统 上 。 
磁盘 ， 还 特意 把 根 文 件 系统 放 到 内 存 文件 系统 上 ， 之 所 以 这 样 做 主要 
为 了 简化 部 普 工 作 。 


还 是 有 可 能 会 发 生 故 障 。 为 了 以 防 万 
一 ， 需 要 准备 备用 机 ， 但 由 于 备用 机 一 般 不 会 用 到 ， 如 有 果 分 别 为 数据 库 
服务 器 和 文件 服务 器 准备 备用 机 的 话 ， 就 又 有 些 多 余 了 。 


虽然 数据 库 服 务 器 和 文件 服务 吉 所 运行 的 程序 及 其 行为 都 有 所 不 同 ， 但 
在 硬件 方面 两 者 的 结构 是 相同 的 ， 所 以 备用 机 可 以 在 两 者 之 间 通 用 。 当 
其 中 一 合 设 备 发 生 故 障 时 ， 束 将 备用 机 作为 故障 的 系统 进行 网 络 引 导 。 

















































































































这 样 仅 用 一 合 备用 机 就 能 为 两 类 设备 提供 服务 ， 而 且 无 需 部 车 等 索 珊 操 
作 ， 能 快速 完成 修复 。 


维护 用 的 引导 映像 
网 络 引 导 不 仅 为 提供 服务 准备 了 必要 的 系统 ， 也 可 简化 维护 工作 。 
例如 ， 用 于 服务 器 设备 初始 化 设置 的 系统 、 用 于 内 存 测试 的 系统 例如 


启动 memtest26) 、 蔡 换 故 障 磁盘 或 下 架 故 障 服务 器 时 用 来 删除 磁盘 上 
» (例如 shred*?) 等 ， 网 络 引 导 提 供 了 基于 各 种 目的 的 系 





26URL http://www.memtest86.com/ 























?以 普通 方式 删除 磁盘 上 的 数据 时 ， 可 以 通过 一 些 数 据 恢复 手段 将 数据 恢复 。shred 工具 通过 
在 磁盘 上 写 入 特殊 设计 的 Bit Pattem， 使 恢复 磁盘 数据 的 操作 变 得 更 为 困难 。 








5.5.4 ”构建 网 络 引导 

最 后 介绍 配置 网 络 引 导 服 务 器 时 需要 注意 的 几 点 。 

initramifs 的 通用 化 和 作用 的 识别 

在 使 用 initramfs 进行 多 种 系统 的 网 络 引 导 时 ， 若 能 让 initramfs 上 自身 实 
现 通 用 化 ， 则 该 架构 更 为 可 取 。 这 是 因为 initramfs 在 启动 内 核 之 后 运 
行 ， 难 以 调试 ， 维 护 系 统 很 费 工 夫 。 在 initramfs 通用 化 的 情况 下 也 会 出 
现 一 些 问 题 ， 例 如 设备 需要 进行 合适 的 初始 化 操作 ， 在 此 initramfs 脚本 
束 需 要 判断 将 其 用 于 哪个 系统 。 以 下 有 几 种 策略 可 供 参 考 。 


第 一 种 方法 是 在 内 核 命令 行 上 将 参数 传递 给 init 脚本 。 











指定 系统 
boot: db id =166 


1 指定 数据 库 服 务 器 








内 核 的 命令 行 用 于 将 参数 传递 给 内 核 绑 定 的 驱动 ， 徊 传 入 多 余 的 参数 就 
会 被 忽略 ， 并 不 会 产生 错误 。 传 递 给 内 核 的 命令 行 的 字符 串 可 以 通过 
proc 文件 系统 在 局 动 后 获取 。 要 将 启动 系统 的 参数 通过 内 核 的 命令 行 传 





递 给 initramfs， 可 以 根据 启动 的 系统 数量 创建 相应 个 数 的 Boot Loader， 
并 在 启动 时 进行 选择 ， 或 者 在 每 次 启动 时 手动 输入 。 但 在 任何 情况 下 ， 
Boot Loader 都 需要 进行 对 话 操作 。 


还 有 一 个 办 法 ， 就 是 initramfs 根据 启动 完毕 的 设备 分 配 的 IP 地 址 (或 
者 相应 的 主机 名 )〉 进行 判断 。 分 配 卫 地 址 是 DHCP 服务 器 的 工作 23。 
DHCP 服务 器 为 了 对 启动 的 设备 分 配 特定 的 IP 地 址 ， 会 事先 调查 该 设 
MAC 地 址 ， 并 在 DHCP 服务 器 上 配置 IP 地 址 与 MAC 地 址 的 对 
以 大 人 处。 


28 若 使 用 了 IPMI (请 参考 5.6 节 ) ， 则 可 以 通过 读 取 IPMI 上 设 定 的 IP 地址 来 进行 使 用 。 












































或 许 还 有 其 他 方法 ， 但 无 论 采 用 哪 种 方法 ， 都 要 根据 目 己 管理 的 环境 ， 
搭建 出 使 用 便捷 、 方 便 扩展 的 架构 。 


无 盘 结 构 中 需要 注意 的 事项 
搭建 无 盘 结 构 时 ， 以 下 几 扣 需要 注意 。 
日 志 的 输出 


第 一 点 是 指定 日 志 输 出 的 目的 地 。 一 般 情况 下 日 志 被 记录 在 本 地 硬 
盘 中 ， 但 是 无 盘 结 构 中 本 地 不 存在 硬 稚 ， 因 此 知 需要 在 无 盘 系 统 中 
保存 必要 的 日 志 ， 可 以 将 这 些 日 志 传送 到 别 的 设备 上 进行 保存 。 简 
便 的 传送 日 志 的 方法 有 “在 文件 服务 器 〈NEFS) 上 记录 ”和 “使 用 
syslog 传送 ”两 种 方法 。 


网 络 引 导 的 机 咒 重 使 用 文件 服务 器 ， 将 日 志 输 出 到 文件 服务 器 上 会 
非常 方便 。 但 在 这 种 情况 下 需要 注意 两 点 : 第 一 点 是 要 避免 多 台 设 
备 回 同一 个 文件 输出 日 志 ， 第 二 点 是 输出 日 志 的 数量 。 数 量 太 大 会 
阻碍 文件 服务 器 的 IO， 有 人 迟 于 文件 服务 器 原本 的 使 用 目的 。 


如 果 不 使 用 文件 服务 器 ， 使 用 syslog 的 日 志 传 送 功能 也 十 分 方便 。 
在 这 种 情况 下 ， 不 能 使 用 普通 的 syslog， 而 要 使 用 “syslog-ng”23， 
这 样 发 送 方 就 可 以 在 发 送 日 志 时 使 用 日 志 过 滤 等 一 些 便利 的 功能 。 


那些 没有 必要 保存 但 是 需要 在 发 生 故 障 时 查看 的 日 志 ， 可 以 输出 到 
内 存 文件 系统 上 。 但 是 在 这 种 情况 下 ， 因 为 内 存 文 件 系统 的 容量 比 















































硬盘 小 ， 所 以 要 留心 所 保存 的 日 志 的 数量 。 与 正常 情况 相 比 ， 存 储 
在 内 存 上 的 日 志 应 该 以 更 短 的 时 间 间 隔 进行 转 储 (Rotate〉， 并 目 
动 删 除 早 先 的 日 志 记 录 ， 这 就 是 “multilog” 的 便利 之 处 。 


multilog 是 daemontools 附带 的 程序 之 一 3， 在 接收 到 标准 输入 的 
日 志 后 ，multilog 会 进行 过 滤 加 工 ， 之 后 再 输出 。 在 将 日 志 输 出 到 
文件 时 ，multilog 会 指定 目标 文件 的 最 大 存放 空间 ， 大 超出 了 该 空 
间 的 容量 ， 就 会 将 较 新 的 日 志文 件 转 储 ， 并 删除 最 早 的 日 志 。 如 此 
一 来 就 保证 了 日 志文 件 整体 的 数量 不 会 太 大 。 


一 一 文件 的 变更 管理 


第 二 点 是 根 文件 系统 所 使 用 的 文件 的 变更 管理 。 在 将 内 存 文件 系统 
作为 根 文件 系统 使 用 的 情况 下 ， 即 便 在 启动 状态 下 变更 文件 ， 重 新 
启动 后 也 还 是 会 还 原 。 因 此 ， 在 变更 文件 的 时 候 ， 同 时 要 变更 文件 
真正 的 实体 。 如 果 不 这 样 做 ， 在 发 生 故 障 的 情况 下 为 了 解决 问题 而 
重新 启动 系统 时 ， 束 会 又 过 到 别 的 故障 。 为 了 不 造成 这 样 的 麻烦 ， 

应 该 明确 相应 的 实施 步 又 。 

在 笔者 管理 的 环境 中 ， 知 正在 运行 的 系统 中 有 需要 更 新 的 文件 ， 笔 
者 会 在 更 新 后 确认 其 行为 ， 并 将 其 复制 到 Master 上 。 为 了 以 防 万 

一 ， 对 旧 的 Master 也 会 进行 相应 的 备份 操作 。 男 外 ， 笔 者 还 准备 

了 专门 的 脚本 ， 以 使 这 样 一 连 串 的 作业 实施 起 来 更 加 简单 。 


加 有 关 syslog-ng 的 详 ' 














eer 


青 请 参考 5.7 节 。 


























30 有 关 daemontools、multilog 的 详情 请 参考 5.4 节 。 





Master 文件 的 安全 性 


Master 文件 的 安全 性 是 很 有 必要 留意 的 。 根 文件 系统 被 托管 在 内 存 文件 
系统 的 情况 下 ， 需 要 准备 根 文 件 系 统 的 Master 文件 。 访 Master 中 不 能 
包含 密码 或 SSH 密 钥 等 一 般 用 户 无 法 访问 的 文件 。 这 是 因为 Master 文 
件 在 机 右 启 动 时 ， 会 从 文件 服务 器 中 进行 复制 。 此 复制 操作 由 initramfs 
进行 ，initramfs 能 够 进行 复制 也 就 意味 着 一 般 用 户 也 可 以 进行 复制 。 


而 且 对 从 文件 服务 器 的 复制 进行 认证 是 没有 意义 的 。 这 是 因为 为 了 让 验 
证 通过 ，initramfs 中 必须 包含 相关 的 认证 信息 ， 而 通过 TFTP 就 可 以 获 








取 initramfs 包 ， 因 为 TFTP 中 是 不 需要 进行 认证 的 。 


5.6 ”远程 维护 一 一 维护 线路 、Serial Console、 
IPMI 





5.6.1 轻松 实现 远程 登录 


退 求 高 适用 性 的 服务 需 在 大 多 数 情 况 下 都 会 被 配置 在 数据 中 心 。 但 是 系 
统管 理 者 不 会 币 驻 在 数据 中 心 ， 特 别 是 小 规模 的 网 站 更 是 如 此 。 服 务 需 
的 配置 地 点 和 平时 系统 管理 者 所 在 的 地 点 相 分 离 ， 每 当 需 要 维护 服务 器 
时 系统 管理 者 都 要 跑 到 服务 器 的 配置 地 点 ， 这 样 无 论 从 时 间 还 是 从 金钱 
上 来 说 部 是 一 种 浪费 。 因 此 ， 通 常 使 用 SSH 等 远程 维护 工具 来 完成 一 
般 的 管理 操作 。 


但 是 在 发 生 故 障 的 情况 下 ， 并 不 一 定 能 进行 远程 登录 。 因 为 远程 登录 是 
以 系统 正常 局 动 为 前 提 的 。 本 节 中 将 介绍 在 出 现 故 障 或 系统 无 法 运行 的 
情况 下 实现 远程 维护 〈Remote Maintenance) 的 方法 。 


5.6.2 ”网 络 故 障 的 应 对 


首先 介绍 一 下 网 络 故障 时 进行 远程 维护 的 办 法 。 远 程 登录 位 于 数据 中 心 
的 服务 絮 设 备 时 需要 使 用 相应 的 网 络 线路 ， 该 网 络 线路 束 是 供 服务 使 用 
的 商用 线路 。 这 条 商用 线路 连接 独 路 由 器 ， 路 由 融通 过 网 络 交换 机 
《Switching Hub ) 和 服务 器 进行 通信 ， 因 此 对 网 络 故障 的 应 对 还 要 分 为 
对 商用 线路 和 路 由 右 故 障 的 应 对 ， 以 及 对 网 络 交 换 机 故障 的 应 对 。 


维护 线路 


为 了 在 商用 线路 和 路 由 需 〈 三 层 交 换 机 ) 发 生 故 障 的 时 候 也 可 以 进行 远 
程 维 护 ， 需 要 准备 一 个 其 他 系统 的 线路 。 这 里 把 该 线路 称 为 “维护 线 
路 ”。 大 家 可 能 以 为 另行 准备 维护 线路 的 成 本 会 很 高 ， 而 事实 上 却 很 便 
宜 。 因 为 只 有 在 商用 线路 不 能 登录 时 才 会 启用 维护 线路 ， 一 般 情况 下 使 
用 家 用 低档 次 的 线路 也 可 以 淹 。 而 且 不 仅 在 出 现 故 障 的 情况 下 ， 在 平常 
传送 大 量 文件 等 使 用 商用 线路 会 对 服务 造成 恶 务 影响 的 情况 下 ， 也 可 以 
充分 利用 维护 线路 ， 因 此 维护 线路 绝 不 会 被 浪费 。 


3 商用 线路 与 维护 线路 如 果 使 用 了 不 同系 统 的 线路 ， 就 不 可 能 出 现 同 时 无 法 使 用 的 情况 。 
























































在 笔者 管理 的 环境 中 ， 维 护 线路 的 结构 如 图 5.6.1 所 示 。 线 路 是 NTT 的 
BFLET'S (+ 该 套餐 的 公 网 IP 是 固定 也 ) 。BFLET'S 的 光 网 线路 是 从 

ONU (Optical Network Unit， 光 网 网 络 单 元 ) 的 终端 上 引出 的 LAN 网 

线 ， 该 LAN 网 线 并 非 直接 连接 到 路 由 器 ， 而 是 通过 集线器 (Hub) 连 

接 到 数 台 服务 器 上 。 该 集线器 与 商用 线路 使 用 的 集线器 在 物理 上 完全 不 
同 ， 商 用 线路 的 集线器 禁止 使 用 VLAN 进行 分 割 ， 这 是 因为 如 果 集 线 

器 发 生 故 障 ， 整 个 结构 都 不 能 使 用 了 。 





图 5.6.1 维护 线路 的 结构 案例 * 
※ 左 侧 是 商用 线路 ， 右 侧 是 维护 线路 。 


经 由 集线器 连接 到 ONU 维护 线路 的 服务 器 之 中 ， 实 际 上 有 一 人 台 是 接 入 
了 Internet 的 。 正 因为 该 服务 器 是 直接 连接 到 外 网 的 ， 因 此 可 以 不 受 商 
用 线路 或 内 网 故障 的 影响 ， 在 任何 情况 下 都 能 登录 。 史 外， 之 所 以 采用 
集线器 将 多 台 服 务 圳 连接 到 ONU 维护 线路 ， 主 要 是 考虑 到 在 变更 接 入 
Internet 的 服务 器 时 ， 通 过 该 染 构 可 以 不 用 特意 赶赴 数据 中 心 去 插 拔 
LAN 网 线 ， 只 需 通过 控制 维护 线路 ， 就 能 解决 问题 了 。 


交换 机 故障 的 应 对 























即使 在 使 用 商用 线路 不 能 远程 登录 的 情况 下 ， 通 过 维护 线路 也 可 以 登录 
一 台 机 器。 从 这 台 机 絮 登 录 到 为 一 台 机 器 时 需要 使 用 到 交换 机 。 接 下 来 
就 介绍 一 下 当 交 换 机 发 生 故 障 时 的 应 对 方法 。 


交换 机 发 生 故 障 的 原因 主要 有 两 个 ;第 一 个 是 交换 机 目 身 的 原因 ， 这 种 
情况 下 应 对 的 方法 就 是 重新 局 动 交 换 机 ， 第 二 个 是 传送 给 交换 机 的 报 文 
的 原因 ， 这 种 情况 的 应 对 方法 是 切断 发 送 方 连接 的 端口 。 


网 络 交 换 机 有 智能 交换 机 和 非 智 能 交换 机 两 种 类 型 。 在 使 用 非 智 能 交换 
机 的 情况 下 ， 不 能 远程 进行 这 些 操作 ; 在 使 用 智能 交换 机 的 情况 下 ， 可 
以 登录 交换 机 上 自 喘 ， 从 交换 机 的 配置 接口 重 局 交换 机 或 切断 端口 。 


登录 交换 机 的 方法 一 般 有 两 种 : 借助 Telnet、SSH 在 网 络 上 登录 ， 或 通 
过 Serial Console (串口 控制 台 〉 登录 。 在 进行 一 般 的 操作 时 会 使 用 前 
者 ， 即 网 络 登 录 ， 因 为 它 的 啊 应 很 好 。 但 在 发 生 故 障 导 致 不 能 使 用 网 络 
登录 的 情况 下 ， 则 可 以 通过 Serial Console 登录 。 关 于 Serial Console 的 
Pl 这 里 仅 对 Serial Console 的 连接 方式 进行 
说 明 。 


为 了 在 商用 线路 发 生 故 障 时 也 能 够 登录 ， 就 需要 确保 设备 连接 到 维护 线 
路 。 因 此 这 里 将 交换 机 的 Serial Console 也 设置 为 可 以 从 这 个 设备 访 

问 。 为 此 就 需要 把 所 有 交换 机 的 串 行 接口 〈Serial Interface) 都 连接 到 该 
设备 上 ， 但 一 般 情 况 下 设备 上 最 多 有 两 个 串 行 接口 ， 因 此 如 果 要 连接 到 
三 台 以 上 的 交换 机 ， 就 需要 使 用 USB- 串口 转换 连接 器 (照片 5.6.1) 等 


设备 。 

















照片 5.6.1 USB - 串口 转换 连接 器 

5.6.3 Serial Console 

至 此 我 们 就 能 应 对 网 络 故障 了 。 接 下 来 介绍 一 下 在 设备 故障 导致 不 能 通 
过 网 络 登录 时 ， 以 及 设备 重启 时 进行 远程 维护 的 方法 Serial 


Console3“。 




















| 32Serial Console 在 Linux 中 的 使 用 可 以 参考 “Remote Serial Console HOWTO” 文 档 的 说 明 ， 该 文 
档 暂 时 没有 中 文 版 。 
URL http://tldp.org/HOWTO/Remote-Serial-Console-HOWTO/ 








Console( 控 制 台 〉 具体 来 讲 就 是 键盘 和 显示 器 ， 即 输入 与 输出 。 在 类 
UNIX 操作 系统 中 ， 大 部 分 的 管理 操作 都 无 需 使 用 GUI， 只 需 通过 文本 
的 输入 输出 就 能 完成 控制 操作 。 而 在 Serial Console 中 ， 则 没有 使 用 显 
示 露 和 键盘 ， 而 是 通过 串 行 接口 将 其 他 设备 连接 到 想 要 管理 的 目标 设 
备 ， 进 行文 本 的 输入 及 输出 的 汪 。 


3 在 工作 站 普及 之 前 ， 一 台 UNIX 设备 连接 多 个 Serial Console 装置 (Dumb terminal， 非 智能 
终端 ) 的 情况 很 常见 。 现 今 虽 然 非 智能 终端 已 经 没有 了 ， 但 是 其 功能 通过 软件 得 到 了 实现 和 应 
用 o 

















Serial Console 中 一 般 使 用 RS-232C 的 接口 。RS-232C 的 通信 是 一 对 一 
的 。 与 以 太 网 不 同 的 是 ， 这 里 使 用 一 根 网 线 只 能 完成 与 一 台 设 备 的 通 


言 ， 因 此 通信 双方 的 两 台 设 备 束 成 为 了 一 对 。 当 需要 通过 Serial Console 

登录 某 台 设备 时 ， 首 先 需 要 远程 登 休 与 之 成 对 的 设备 ， 0 

备 上 登录 。 里 然 使 用 起 来 有 些 麻 烦 ， 但 由 于 目前 大 部 分 服务 器 中 都 有 一 

两 个 RS-232C 的 端口 ， 因 此 5 只 要 准备 好 网 线 34， 之 后 再 对 软件 进行 配 
置 就 可 以 使 用 了 。 


34 一 般 使 用 名 为 “Serial Cross Cable” 的 网 线 。 另 外 ，RS-232C 使 用 的 端口 分 为 9 个 针脚 和 25 个 
针脚 两 种 ， 在 服务 器 设备 上 使 用 的 是 9 个 针脚 的 RS-232C。 






































Serial Console 的 实现 


Serial Console 与 SSH 的 不 同 点 就 是 不 将 被 登录 的 一 端 称 为 服务 器 。 但 
这 里 为 了 便于 理解 ， 我 们 将 被 操作 的 一 端 称 为 服务 器 ， 将 进行 操作 的 一 
端 称 为 客户 端 。 


以 Serial Console 闻名 的 客户 端 软件 有 cu、ermit、minicom。 鉴 于 cu 是 
历史 悠久 的 程序 ， 可 能 比较 难以 上 手 。 若 单纯 使 用 Serial Console， 
minicom 则 更 好 理解 。 另 一 方面 ，cu 或 kermit 不 仅 能 够 应 用 于 Serial 
Console， 也 可 以 通过 串口 来 传送 文件 3。 


5 使 用 了 名 为 xmodem、ymodem、zmodem 的 协议 。 虽 说 理论 上 可 以 向 任何 目标 传送 文件 ， 但 
需要 在 服务 器 上 准备 发 送 和 接收 用 的 相关 软件 。 


随 着 设备 的 启动 ，Serial Console 的 服务 器 3 所 承担 的 功能 也 会 发 生变 
化 。 以 下 按 顺 序 分 别 说 明 BIOS、Root Loader、 操 作 系 统 、gentty 的 行 



























































3 这 里 没有 有 具体 列举 出 来 ， 其 实 上 述 交 换 机 就 是 Serial Console 的 服务 器 。 

















e BIOS 
如 果 是 服务 器 设备 上 搭载 的 BIOS， 则 具有 “控制 台 重 定 
问 ”(Console Redirection〉 的 功能 ， 即 在 设备 启动 时 ， 将 BIOS 输 
出 的 消息 以 及 BIOS 的 配置 画面 ， 输 出 到 指定 的 串 行 接口 中 


e Root Loader 


lilo、SYSLINUX、GRUB 等 通常 的 Root Loader 都 支持 Serial 





Console。 只 需 进 行 相应 的 配置 〈 图 5.6.2 @) ， 就 可 以 与 一 般 的 终 
端 控 制 台 相同 ， 通 过 Serial Console 访问 Boot Loader 的 控制 画面 


。 操作 系统 
大 部 分 的 类 UNIX 操作 系统 都 会 在 系统 启动 时 执行 的 初始 化 脚本 输 
出 相应 的 信息 ， 这 里 会 将 此 类 信息 输出 到 Serial Console 上 。 如 果 


是 Linux 操作 系统 ， 则 可 以 在 内 核 的 参数 中 指定 Serial Console 作 
为 默认 的 控制 台 (图 5.6.2 @) 


。 getty 


在 类 UNIX 操作 系统 中 ， 控 制 台 的 登录 是 使 用 名 为 getty”” 的 程序 
来 进行 操作 的 ，Serial Console 的 登录 也 同样 使 用 getty 


37 准 确 地 说 ，getty 通过 监控 指定 的 接口 ， 若 发 现 有 信息 输入 ， 就 进行 Login 程序 的 登录 操作 。 











default=06 

timeout=16 

serial --unit=1 --Speed=19266 -word=8 --parity=no --Stop=1 <*@ 
terminal --timeout=36 console serial <@ 


title Linux (Console Mode) 


root (hd6,6) 

kernel /vmlinuz ro root=/dev/sda3 console=ttyS1,19266n8 console=tty6 <*@ 
title Linux (Serial Mode) 

root (hd6,6) 

kernel /vmlinuz ro root=/dev/sda3 console=tty6 console=ttyS1,19266n8 <*@ 





图 5.6.2 基于 GRUB 的 Boot Loader 与 内 核 配 置 案例 * 


※ 本 例 中 GRUB 的 版 本 是 0.99。 
@O 是 GRUB 自身 的 Serial Console 配置 @ 是 内 核 参数 。 


getty 有 很 多 种 类 ， 其 中 大 部 分 都 能 够 处 理 从 Serial Console 的 登录 ， 但 
这 里 建议 使 用 mgetty。 通 常 一 启动 getty， 就 会 锁定 监控 的 网 络 接口 。 
但 在 使 用 mgetty 的 情况 下 ， 只 需 在 启动 时 附加 -r 选 项 ， 或 者 在 配置 文 











件 Cmgetty.config) 中 选 定 “direct yes”， 就 可 以 在 不 锁定 网 络 接口 的 情 
况 下 正常 执行 弹 (代码 清单 5.6.1) 。 据 此 ， 仅 仅 通过 一 个 Serial 连接 ， 
即使 是 在 mgetty 监控 的 情况 下 ， 也 可 以 使 用 客户 端 程序 访问 成 对 设备 
的 Serial Console。 





38 若 启动 login， 就 会 锁定 网 络 接口 。 


代码 清单 5.6.1 mgetty.config 的 例子 关 


port ttySO 
speed 
direct 
blocking 
data-only 


need-dsr 
toggle-dtr 
ignore-carrier 
login-time 
term 





※ 该 例 中 mgetty 的 版 本 号 是 1.1.31-Jul24。 
5.6.4 IPMI 


如 此 一 来 ， 在 服务 器 不 能 进行 网 络 登录 以 及 重启 操作 系统 时 也 可 以 进行 
远程 维护 了 。 但 如 果 内 核 失 去 控制 ， 则 从 Serial Console 也 不 能 登录 
了 。 在 这 种 时 候 ， 如 果 设 备 在 身边 的 话 ， 就 可 以 手动 按 下 电源 按钮 以 强 
制 重启 设备 ， 但 远程 的 设备 则 不 能 这 样 操 作 3 


3 大 部 分 的 数据 中 心 都 提供 了 代 蔡 进行 这 一 简单 操作 的 服务 。 但 是 从 请 求 代 为 执行 到 实际 执行 
重启 操作 中 间 需 要 一 段 时 间 ， 而 且 也 不 好 意思 每 次 都 请 求 代为 执行 。 















































在 这 种 情况 下 ， 可 以 通过 网 络 控制 周遭 设备 的 电源 ， 这 就 是 

IPMI (Intelligent Platform Management Interface ) 40。IPMI 是 intel 公司 

开发 的 ， 是 一 个 从 软件 出 发 来 控制 及 确认 设备 电源 状态 的 标准 。IPMI 

蛙 无 疑问 可 以 在 局 域 网 的 设备 上 使 用 ， 同 时 也 可 以 访问 网络 上 的 其 他 设 

备 以 实现 相应 功能 。IPMI 是 通过 在 设备 上 安装 便 件 而 发 挥 作用 的 ， 
此 其 运行 独立 于 操作 系 统 。 进 一 步 说 束 是 IPMI 不 依赖 于 机 器 电源 的 开 

关 状 态 ， 只 要 给 设备 提供 电流 ， 使 用 IPMI 就 能 够 从 外 部 控制 设备 ， 





IPMI 束 好 像 是 独立 于 需要 控制 的 目标 设备 的 小 设备 。 


和 有 关 IPMI 的 详情 ， 请 查阅 各 硬件 的 说 明文 档 以 及 各 软件 的 网 站 : 
GNU FreeIPMI URL http:/www.gnu.org/software/freeipmi/ 

IPMItool URL http://sourceforge.net/projects/ipmitool/ 

ipmiutil URL http://sourceforge.net/projects/ipmiutil/ 















































IPMI 的 功能 


笔者 在 表 5.6.1 中 对 IPMI 的 功能 进行 了 归纳 上 总结。 目前 使 用 的 IPMI 的 
版 本 有 1.5 和 2.0， 其 中 任何 一 个 版 本 都 可 以 控制 电源 和 获取 服务 器 的 
传感器 以 及 事件 日 志 等 言 息 。IPMI 2.0 引 人 注 目的 地 方 是 引入 了 Serial 
Over LAN (SoL) ， 这 是 通过 IPMI 访问 服务 器 的 Serial Console 的 功 
能 。 使 用 Sol 就 可 以 不 受 串联 线路 的 限制 ， 从 网 络 上 的 任意 设备 都 能 够 
访问 Serial Consol。 


表 5.6.1 IPMI 的 功能 




















速 、 温度 、 电源 电 小 

















国 国 区 开 


a 看 门 狗 定时 器 (WDT，Watch Dog Timer) 











使 用 IPMI 


要 使 用 IPMI， 首 先 需 要 在 设备 上 安装 了 MI 的 功能 。 安 装 的 方法 根据 设 
备 的 不 同 存在 差 寞 。 有 的 设备 原本 就 配备 IPMI 的 功能 ， 这 时 需要 先 确 
认 该 设备 使 用 IPMI 功能 的 相关 选项 〈 例 如 所 需 的 端口 等 ) ， 具 体 可 以 
询问 硬件 制造 商 。 


用 来 访问 IPMI 的 软件 ， 有 的 是 由 硬件 制造 商 发 布 的 ， 有 的 是 开源 的 
(OSS) 。 硬 件 制造 商 发 布 的 软件 有 时 只 能 在 同一 制造 商 的 硬件 上 使 
用 ， 这 一 点 需要 注意 。 而 开源 的 软件 则 不 依赖 于 操作 系统 及 硬件 制造 
丙 ， 因 此 使 用 起 来 较为 便利 。 开 源 的 IPMI 客户 端 软件 有 FreeIPMI、 
IPMItool、IPMIutil 等 。 





5.6.5 “总结 


这 里 介绍 的 内 容 并 不 全 面 。 但 是 鉴于 引入 该 技术 的 成 本 较 低 ， 而 且 在 平 
利 的 管理 操作 中 也 能 够 方便 地 使 用 ， 因 此 引入 该 技术 绝 不 会 造成 亏损 。 
当然 ， 也 有 很 多 类 似 的 其 他 技术 ， 例 如 Magic SysRq、 看 门 狗 定时 器 、 

kdump 等 ， 这 里 就 不 再 详细 叙述 了 。 请 尝试 使 用 多 种 技术 ， 以 创造 出 更 
加 便于 管理 的 环境 。 





5.7 Web 服务 需 的 日 志 处 理 
ng、cron、rotatelogs 


5.7.1 Web 服务 器 日 志 的 分 拣 : 收 集 


在 真正 开始 整理 分 流 环境 提供 服务 后 ， 为 了 统计 访问 或 分 析 故 障 ， 使 用 
日 志 的 情况 会 相应 地 增加 。 因 为 在 分 流 环境 中 是 由 多 个 Web 服务 器 文 
撑 一 个 服务 的 ， 因 此 日 志 也 会 根据 服务 器 的 台数 被 分 流 输出 。 但 是 从 日 
志 分 析 、 保 存 的 角度 来 看 ， 将 这 些 日 志 集 中 在 一 处 是 比较 理想 的 。 本 节 
束 将 对 日 志 的 分 拱 、 收 集 进行 说 明 ， 讲 述 Web 服务 器 〈Apache) 的 日 
志 的 分 拣 、 收 集 方法 ， 该 方法 对 其 他 日 志 也 同样 适用 。 


5.7.2 ”分 拣 与 收集 


日 志 的 分 拣 与 收集 是 两 个 不 同 的 概念 。 这 里 所 讲 的 分 拣 是 指 经 钊 把 
Web 服务 费 输出 的 日 志 殊 除 无 关 的 部 分 后 ， 将 相关 内 容 梳 理 并 归纳 整理 
到 一 个 文件 中 ， 而 收集 则 是 指定 期 对 各 服务 器 输出 的 日 志 进 行 收集 并 保 
存 。 二 者 的 区 别 在 于 各 自 的 目的 和 行为 存在 差异 。 


经 常 对 日 志 进 行 分 拣 的 目的 在 于 把 握 服 务 需 在 任意 时 间 点 的 运行 状况 。 
例如 当 故 障 发 生 的 时 候 ， 就 可 以 对 具体 哪个 机 需 出 现 了 问题 进行 确认 ， 
还 可 以 粗略 地 统计 服务 需 的 访问 状况 ， 即 瞬时 PV， 以 及 用 户 数 等 关联 
人 
笃 。 


另 一 方面 ， 收 集 日 志 的 主要 目的 是 统计 、 分 析 和 保存 。 服 务 器 运 维 中 最 
基本 的 就 是 对 Web 服务 器 、AP 服务 器 的 日 志 进 行 整 理 分 析 ， 因 此 需要 
以 日 、 周 、 月 等 多 种 时 间 跨 度 为 单位 的 日 志 信 息 。 而 如 果 需 要 的 日 志 分 
散在 各 处 ， 统 计 起 来 是 非常 麻烦 的 。 而 且 考 虑 到 存储 的 问题 ， 将 日 志 集 
中 在 一 处 也 比较 便于 操作 。 


即便 都 是 将 日 志 集 中 在 一 处 ， 日 志 的 分 拣 和 收集 还 是 存在 区 别 ， 这 是 因 
为 二 者 的 日 志 的 精度 存在 差异 。 在 Web 服务 器 中 ， 随 着 访问 量 的 增 

多 ， 单 位 时 间 内 输出 的 日 志 数 量 也 在 增加 。 在 访问 临时 出 现 高 峰 时 ， 为 
本 确保 分 拱 a 到 所 有 的 日 志 并 加 以 保存 ， 保 存 日 志 的 人 硬件 整 需 要 具备 稳定 


syslog、 syslog- 























的 性 能 。 然 而 ， 以 应 对 突 发 状况 为 前 提 准 备 高 性 能 的 硬件 ， 这 从 成 本 上 
来 看 很 不 合算 ， 因 此 这 里 的 分 拣 日 志 就 不 要 求 精 度 ， 并 夯 外 使 用 收集 的 
方法 收集 在 各 服务 器 本 地 上 输出 的 日 志 。 


分 拣 、 收 集 日 志 有 很 多 种 方法 。 例 如 ， 不 使 用 文件 方式 记录 而 是 在 数据 
库 中 进行 记录 。 奉 在 数据 库 中 记录 日 志 ， 虽 然 搜索 起 来 比较 方便 ， 但 管 
理 的 经 费 也 会 随 之 增加 ， 通 钊 我 认为 这 方法 吃力 不 讨好 。 下 面 笔 者 就 把 
在 实际 管理 的 环境 中 采取 的 办 法 介绍 给 大 家 。 




















5.7.3 ”日志 的 分 拣 ...…..syslog 和 syslog-ng 


在 对 操作 日 志 进 行 分 拒 时 使 用 syslog 是 很 方便 的 。syslog 的 作用 是 在 类 
unix 操作 系统 中 建立 一 个 日 志 分 拱 中 心 。 接 下 来 就 回 大 家 介绍 一 下 使 用 
syslog 来 分 拒 Apache 的 日 志 的 方法 441。 








44 虽 然 本 书 中 没有 介绍 ， 但 日 志 的 分 拣 也 可 以 不 使 用 syslog， 而 使 用 Apache 的 
mod_log_spread 模块 来 实现 ， 有 具体 在 《构建 可 扩展 的 Web 站 点 》 (Cal Henderson 车 ， 徐 宁 
译 ， 电 子 工业 出 版 社 2008 年 出 版 ) 中 的 第 10 章 有 详细 说 明 。 

若 需 了 解 mod_log_spread， 请 参考 以 下 链接 : 

URL http://www.backhand.org/mod_log_spread/ 


























使 用 syslog 进行 日 志 的 分 撕 


Apache 中 除了 可 以 将 日 志 输 出 的 目的 地 记录 在 指定 的 文件 以 外 ， 也 可 
以 将 日 志 转 送 到 已 经 启动 的 其 他 程序 上 。 接 收 到 日 志 的 程序 可 以 根据 该 
程序 本 身 的 目的 处 理 该 日 志文 件 人 “。 另 一 方面 ，syslog 中 包含 logger 儿 
程序 ， 该 程序 能 够 将 从 标准 输入 接收 的 操作 日 志 传 递 给 syslog。 通 过 配 
合 使 用 这 二 者 ， 就 可 以 在 syslog 中 输出 Apache 的 操作 日 志 。 


























4 Apache 中 将 日 志文 件 转送 到 其 他 程序 的 方法 请 参考 Apache 文档 的 CustomlogDirective 项 的 
说 明 oo 





4 有 关 从 Apache 接收 日 志文 件 的 logger 的 详情 ， 请 参考 附带 的 man 帮助 指令 。 




















在 syslog 中 分 拒 的 日 志 都 被 设 定 了 程序 模块 〈Facility) 和 优先 级 
(Priority) 从。syslog 能 够 据 此 识别 日 志 ， 并 将 需要 的 日 志 输 出 到 指定 
文件 上 ， 或 将 日 志 转 送 到 其 他 设备 的 sysloy 上 。 即 使 是 使 用 syslog 将 
Apache 中 输出 的 操作 日 志 分 拣 到 特定 的 一 台 机 器 上 ， 也 要 使 用 程序 模 
块 和 优先 权 。 也 就 是 说 ， 首 先 使 syslog 能 够 识别 Apache 中 输出 的 操作 





日 志 ， 然 后 再 把 需要 的 日 志 转 送 到 日 志 服 务 器 〈 图 5.7.1) 。 


44syslog 中 的 程序 模块 ， 换 句 话说 就 是 范畴 〈Category) 。 事 先 设 定好 几 种 程序 模块 及 优先 
级 ， 通 过 syslog 输出 日 志 的 程序 会 在 输出 时 从 中 选择 合适 的 一 种 。 程 序 模块 的 例子 有 
kem (用 于 内 核 ) 、mail (邮件 相关 ) 、daemon 〈 用 于 各 种 守护 进程 ) 等 。 优 先 级 的 例子 有 


debug、 error、emerg 等 。 



































Var/log/apache/siteA.access 


Narllog/apache/siteB.access 


Narllog/apache/siteC.access 





Avarlog/syslog 


图 5.7.1 使 用 syslog 分 拣 日 志 将 
※ 在 需要 分 拒 多 个 站 点 的 日 志 的 情况 下 ， 各 个 站 点 的 日 志 的 输出 目的 地 不 同 。 


syslog 有 时 可 能 会 无 法 正确 获取 操作 日 志 。 当 同一 个 日 志 被 连续 输出 
时 ，syslog 还 是 会 坚持 将 其 分 拒 归 纳 到 一 个 日 志 中 ， 这 种 方式 不 适用 于 
有 严密 性 要 求 的 情况 ， 而 且 在 输出 大 量 的 日 志 时 会 造成 磁盘 IO 的 负 
担 。 因 此 使 用 syslog 分 扰 的 日 志 只 在 发 生 问题 时 查找 出 现 问题 的 设备 时 
使 用 ， 或 者 被 单纯 被 用 于 观察 站 点 的 趋势 。 


Syslog-ng 


假设 现在 运营 了 多 个 站 点 ， 要 分 别 对 每 个 站 点 的 日 志 进 行 分 拣 。 在 类 似 
这 样 的 情况 下 ， 分 别 为 各 个 站 点 分 配 程序 模块 和 优先 级 会 花费 很 多 精 
力 。 此 外 ， 因 为 程序 模块 和 优先 级 的 组 合 是 有 限 的 ， 所 以 能 够 配置 的 数 
量 就 会 有 一 个 上 限 。 可 以 的 话 应 先 解 决 Web 服务 专 使 用 的 程序 模块 和 
优先 级 问题 ， 但 是 这 种 情况 下 各 个 站 点 的 日 志 混在 一 起 是 非常 麻烦 的 。 

















忆 之 ， 理 想 的 方式 是 使 用 一 个 程序 模 块 和 优先 级 来 传送 日 志 ， 在 输出 日 
0 别 的 信息 进行 区 别 ， 最 终 实 现 将 不 同 站 点 的 日 志 输 出 到 不 
同 的 文件 中 。 


这 些 可 以 通过 syslog-ng4 来 实现 。syslog-ng 是 syslog 的 升级 版 。 与 
syslog 相 比 ，syslog-ng 增加 了 很 多 便利 的 功能 ， 如 日 志 过 滤 、 日 志和 转 
储 、 自 动 生成 输出 日 志 的 目录 等 。 这 些 便利 的 功能 之 一 就 是 “ 宏 ”。 宏 可 
以 展现 与 日 志 有 关 的 元 信息 ， 这 样 就 能 从 宏观 角度 去 了 解 这 些 日 志 所 包 
含 的 具体 信息 。syslog-ng 中 提供 的 宏 能 够 表示 当前 时 间 和 程序 模块 与 优 
先 级 、 输 出 日 志 的 主机 、 输 出 的 日 志 中 设 定 的 标签 (程序 名 ) 等 。 在 
syslog-ng 中 通过 使 用 宏 ， 能 够 设置 输出 日 志 的 文件 名 。 也 就 是 说 ， 如 果 
使 用 表示 标签 的 宏 作为 输出 目的 地 的 文件 名 ， 就 可 以 使 带 有 同一 个 标签 
的 日 志 在 同一 个 文件 中 输出 。 日 志 的 转 储 也 可 以 通过 在 文件 名 中 使 用 表 
示 日 期 的 宏 来 实现 (图 5.7.2 ) 。 














45syslog-ng 是 在 以 下 链接 中 发 布 的 。 

URL http://www.balabit.com/network-security/syslog-ng/ 

与 正统 的 syslog 相 比 ，syslog-ng 的 配置 文件 的 编写 语法 可 能 比较 难以 掌握 。 以 下 是 有 关 
syslog-ng 的 中 文 介绍 及 应 用 实例 。 

URL http://baike.baidu.com/view/3426564.htm 
| URL http://www.oschina.net/question/54100_32993 


























日 期 : 10/21 


输出 主机 kame Narliog/kame/usagi.acc.10-21 


全 序 名 : Usagi 
和 Oct 21 06:27:24 kame usagi[123]: test log from kame 


“test log from kame” 





日 志 服 务 器 


图 5.7.2 syslog-ng 的 使 用 示例 < 
※ syslog-ng 可 以 在 配置 文件 中 使 用 宏 指 定 文 件 名 。 


5.7.4 日 志 的 收集 








收集 操作 日 志 的 最 重要 的 目的 是 保存 并 分 析 操 作 日 志 。 大 部 分 情况 下 ， 
日 志 分 析 是 一 天 进行 一 回 。 因 此 收集 操作 日 志 也 是 一 天 一 次 ， 在 早晨 服 
务 句 的 负荷 比较 低 的 时 候 ， 对 每 个 机 器 前 一 天 的 操作 日 志 进 行 收集 。 在 
笔者 管理 的 环境 中 ， 收 集 的 同时 也 会 将 各 机 器 上 的 以 前 的 日 志 删 除 。 而 
且 还 会 将 日 志 服 务 器 上 的 以 前 的 日 志 进 行 压缩 “%。 


























4 这 样 一 连 串 的 动作 都 可 以 通过 脚本 实现 。 在 编写 脚本 时 ， 需 要 注意 发 生 错误 时 的 记录 及 修复 
工作 。 这 是 因为 如 果 日 志 解 析 程 序 检测 不 到 日 志 收 集 失败 ， 就 会 将 只 解析 了 一 半 的 结果 进行 报 
告 ， 因 此 就 会 造成 混乱 。 















































除了 每 天 进行 日 志 分 析 之 外 ， 日 志 分 析 也 可 以 按照 一 定 的 时 间 周 期 进 

行 ， 如 每 周 、 每 月 进行 一 次 。 而 且 还 可 以 从 新 的 角度 去 分 析 过 去 的 日 

志 。 因 此 这 就 需要 随时 都 可 以 马上 看 到 以 前 的 日 志 。 在 这 里 需要 留意 的 
是 ， 未 压缩 的 日 志 会 占用 大 量 的 磁盘 空间 ， 所 以 一 定 要 对 以 前 的 日 志 进 
行 压 缩 。 即 使 这 个 压缩 处 理 需 要 花费 较 长 时 间 也 没有 问题 ， 重 点 是 要 尽 
可 能 地 将 其 压缩 得 小 一 些 4 。 笔 者 的 管理 环境 中 是 使 用 bzip2 来 压缩 并 
保存 web 服务 器 、AP 服务 器 的 日 志 的 ， 使 用 约莫 500GB 的 磁盘 空间 
就 可 以 很 好 地 对 几 年 的 日 志 进 行 保存 。 


4 在 日 志 的 文本 数据 中 ， 由 于 已 经 确定 好 了 输出 的 字符 串 模式 ， 因 此 压缩 率 比 较 高 。 例 如 某 网 
站 的 Apache 的 日 志 ， 使 用 bzip2 的 最 小 压缩 选项 ， 就 可 以 将 其 压缩 至 源 文 件 的 10。 












































Apache 日 志 的 转 储 .………. cron 与 rotatelogs 


鉴于 每 天 都 在 收集 日 志 ， 若 将 Web 服务 器 输出 的 日 志 按 天 进行 划分 ， 
但 看 起 来 应 该 会 非常 便利 。 因 为 Apache 本 喘 并 个 拥有 日 志 转 储 功能 ， 
所 以 为 了 将 Apache 输出 的 日 志 按 天 进行 转 储 ， 束 要 依赖 于 外 部 的 程 
序 。 这 里 有 两 种 方法 。 


第 一 种 方法 是 使 用 cron 对 日 志文 件 重 命名 及 重新 局 动 Apache。 因 为 在 
Apache 工作 的 时 候 ， 日 志文 件 处 于 打开 的 状态 ， 仅 仅 在 中 途 重 命名 日 
志文 件 是 不 能 实现 转 储 的 ， 所 以 要 在 重 命名 之 后 立刻 重新 局 动 
Apache， 才 可 以 实现 日 志 的 转 储 。 


第 二 种 方法 是 使 用 Apache 附带 的 rotatelogs 程序 各， 即 在 日 志 的 分 拣 
一 节 中 提 到 的 ， 与 加 其 他 程序 转发 日 总 的 功能 配合 使 用 的 程序 。 
人 
储 的 功能 。 














48rotatelogs 是 实现 Apache 日 志 转 储 的 方式 ， 使 用 方式 见 Apache 的 man 帮助 ， 也 可 参考 下 面 
的 页 面 : 
URL http://httpd.apache.org/docs/2.0/programs/rotatelogs.htm 














遗憾 的 是 ， 无 论 使 用 哪 一 种 方法 ， 都 不 能 完全 实现 日 志 的 实时 转 储 。 使 
用 cron 的 情况 下 ， 重 新 启动 Apache 时 肯定 会 发 生 时 间 上 的 波动 。 虽 说 
使 用 rotatelogs 的 方法 比 起 使 用 cron 的 方法 在 转 储 时 具备 更 严密 的 时 间 
判定 。 但 是 因为 Apache 从 收 到 请 求 到 生成 日 志 并 传递 给 rotatelogs 存在 
延迟 ， 例 如 即使 事先 设 定 在 0 点 进行 转 储 ， 也 有 可 能 发 生 昨 天 访问 的 日 
志 被 输出 到 今天 的 日 志文 件 上 的 情况 。 


5.7.5 日 志 服 务 器 的 作用 与 构成 


日 志 服 务 器 的 作用 就 是 对 日 志 进 行 分 拒 和 收集 ， 并 将 收集 的 日 志 进 行 保 
存 。 除 此 以 外 ， 在 对 其 他 收集 来 的 日 志 进 行 分 拒 和 分 析 时 ， 也 会 使 用 到 
日 志 服务 器 。 日 志 的 分 拣 收集 、 旧 日 志 的 压缩 、 日 志 分 析 等 都 是 比较 重 
要 的 处 理 ， 因 此 提供 服务 的 服务 器 不 能 同时 承担 日 志 服 务 器 的 工作 。 忆 
外 ， 日 志 的 保存 通 第 都 需要 容量 足够 大 的 人 硬盘 。 因 此 最 好 能 够 提供 专门 
的 设备 作为 日 志 服 务 器 。 


笔者 的 管理 环境 中 准备 了 主 用 和 备用 两 台 日 志 服务 器 。 备 用 的 日 志 服 务 
器 中 放置 了 备份 的 日 志文 件 ， 还 承担 了 在 主 用 的 服务 器 出 现 故障 时 代替 
它 的 作用 。 夯 外 ， 对 于 按 月 或 按 年 分 拒 的 大 量 的 日 志文 件 来 说 ， 分 析 和 是 
十 分 必要 的 ， 但 分 析 会 耗费 相当 程度 的 资源 ， 为 了 不 影响 日 党 的 日 志 分 
拒 ， 可 以 将 大 规模 的 日 志 分 析 放 到 备用 的 日 志 服 务 咒 上 进行 。 


无 法 准备 专门 的 备用 服务 器 的 情况 下 ， 就 需要 将 日 志文 件 转移 保存 到 别 

的 设备 上 。 该 设备 不 一 定 要 在 数据 中 心 ， 使 用 维护 线路 将 日 志文 件 传送 

在 这 种 情况 下 ， 需 要 注意 日 志文 件 中 
会 . 每 展 K 言 怕 .。 























5.7.6 ”总 结 


节 笔 者 以 自己 管理 的 环境 为 例 介 绍 了 日 志 的 分 拣 和 收集 。 根 据 日 志 的 
内 容 和 操作 方法 ， 对 日 志 的 要 求 也 有 所 变化 。 例 如 在 一 些 站 点 中 可 能 需 
要 实时 获取 PV、 用 户 数 等 。 在 大 规模 的 站 点 中 ， 和 鉴于 日 志 的 数量 过 
多 ， 会 出 现 保存 相对 麻烦 的 问题 。 当 然 ， 根 据 站 点 的 不 同 ， 对 于 日 志 的 
要 求 肯定 是 干 差 万 别 的 。 即 使 是 同一 站 点， 随 着 站 反 自 号 的 成 长 ， 对 日 

















志 的 要 求 也 会 发 生变 化 。 因 此 ， 获 取 日 志 的 处 理 也 要 根据 具体 情况 来 灵 
活 应 对 。 布 望 本 节 的 内 容 能 够 对 您 有 所 帮助 。 


第 6 章 服务 后 台 一 一 目 律 的 基础 
设施 、 稳 健 的 系统 


6.1 Hatena 网 站 的 内 容 


6.1.1 Hatena 的 基础 设施 


Hatenal 是 一 个 提供 博客 (Hatena Diary) 、 书 签 (Hatena Bookmark) 、 
百科 搜索 等 Web 服务 的 网 站 。 截 至 2008 年 2 月 ， 月 均 访 问 量 达 到 了 
970 万 次 。Hatena 基于 其 自身 的 理念 提供 了 独特 的 Web 服务 ， 同 时 也 
建立 了 一 个 特殊 的 基础 设施 。 


1URL http:/www.hatena.ne.jp 


在 Hatena 的 基础 设施 构建 方面 ， 始 终 坚持 了 “自我 原则 ”和 “开源 原则 ”这 
两 个 原则 (照片 6.1.1 一 照片 6.1.3) 。“ 自 我 原则 ”是 指 ， 不 购买 现成 的 
服务 器 ， 而 是 自己 设计 和 组 装 服务 器 硬件 及 方案 。“ 开 源 原则 ”是 指 ， 在 
服务 器 上 操作 的 软件 几乎 全 部 都 是 OSS 开源 软件 。 另 外 在 自行 编写 软 
件 或 为 软件 附加 功能 时 ， 也 尽 可 能 地 利用 了 开源 社区 的 相关 技术 。 














照片 6.1.2 配置 好 的 自制 服务 器 
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照片 6.1.3 ”数据 中 心 的 内 部 情况 


截止 到 目前 ，Hatena 的 整个 基础 设施 已 拥有 约 350 台 服 务 器 。 其 中 提供 
服务 的 基础 设施 主要 由 三 个 层次 构成 ， 即 反问 代理 服务 器 、AP 服务 
器 、 数 据 库 服 务 器 ， 并 根据 负载 和 需求 添加 了 高 速 缓存 服务 器 、 文 件 服 
务 器 或 批 处 理 服务 器 。 另 外 还 有 日 志 服 务 器 、 监 探 服务器、 资源 服务 器 
等 共享 的 服务 器 (图 6.1.1) 。 





提供 服务 的 主 服务 器 


批 处 理 
服务 器 





图 6.1.1 Hatena 网 站 的 服务 器 构成 

正 是 因为 这 些 服 务 嚣 集群 每 时 每 秒 都 在 工作 着 ，Hatena 网 站 才能 够 持续 
地 提供 服务 。 本 章 将 介绍 Hatena 为 提高 基础 设施 的 稳定 性 、 营 运 效 
率 、 用 电 效 率 和 可 扩展 性 等 所 做 的 努力 。 

6.1.2 可 扩展 性 和 稳定 性 


对 Hatena 这 样 每 天 都 要 处 理 海量 请 求 的 网 站 来 说 ， 通 过 进行 有 效 的 负 
载 均 衡 来 维持 较 高 的 可 扩展 性 是 非常 重要 的 。 


Hatena 是 利用 LVS (IPVS) +keepalived 来 实现 负载 均衡 的 ， 在 此 准备 
两 类 服务 器 ， 将 使 用 VRRP 实现 元 余 的 主机 集群 作为 一 类 (图 中 的 共享 











服务 器 ) ， 将 各 反 向 代理 服务 器 、AP 服务 器 、 数 据 库 服 务 器 这 三 个 层 
面 的 服务 器 作为 另 一 类 《图 中 提供 服务 的 主 服务 器 ) 。 在 LVS 服务 器 

的 存储 中 不 使 用 普通 硬盘 ， 而 是 使 用 固态 硬盘 以 努力 降低 硬件 故障 率 。 

另外 ， 通 过 在 LVS 中 利用 DSR 路 由 协议 ， 既 可 以 减少 通过 LVS 服务 

器 的 流量 ， 而 且 还 能 将 各 层 服务 器 划分 为 类 来 把 握 全 局 。 如 果 未 来 访问 
量 进一步 增长 ， 也 可 以 根据 情况 细 化 各 层 类 的 划分 以 方便 管理 。 


反问 代理 


反 向 代理 主要 使 用 的 是 Apache 2.2。 反 向 代理 代理 交接 了 多 个 后 端 模 
块 ， 这 里 不 使 用 mod_proxy_balancer， 而 是 使 用 mod_proxy 模块 来 进行 
反问 代理 。 负 载 均 衡 则 是 利用 上 述 的 LVS 技术 来 完成 的 。 此 外 ， 和 AP 
服务 器 之 间 通 过 利用 Squid 实现 最 大 限度 的 缓存 ， 以 减少 AP 服务 器 和 
数据 库 服 务 器 的 负载 。 


对 反 同 代理 Apache 还 实施 了 Dos 攻击 的 防范 策略 ， 即 利用 笔者 开发 的 
mod_dosdetector” 以 动态 检测 DoS 攻击 。 引 进 mod_dosdetector 之 前 ， 
每 当 受 到 DoS 攻击 时 只 能 手动 添加 查找 攻击 源 IP 地 址 的 设 定 ， 实 际 解 
决 起 来 非常 复杂 ， 但 通过 引入 mod_dosdetector 模块 ， 就 可 以 动态 消除 
攻击 ， 人 简单 的 DoS 攻击 基本 不 会 造成 什么 影 啊 。 





2URL http://sourceforge.net/projects/moddosdetector/ 


在 Apache 的 架构 中 ， 针 对 一 个 请 求 ，worker 模式 下 会 为 其 分 配 线程 ， 
prefork 模式 下 会 为 其 分 配 进程 ， 而 且 在 等 待 AP 服务 器 啊 应 期 间 ， 分 配 
也 不 会 被 释放 。 因 此 ， 在 收 到 大 量 请 求 的 情况 下 ， 就 算 AP 服务 器 的 负 
载 程度 较 低 ， 也 有 可 能 会 使 用 掉 过 多 反问 代理 的 资源 。 在 此 之 前 ， 在 
Hatena 网 站 的 书签 功能 中 ， 用 户 调 取 书 签 的 API 束 发 生 过 这 个 问题 。 该 
API 的 请 求 与 其 他 请 求 相 比 数量 差距 悬殊 ， 为 了 完成 API 的 处 理 ， 正 常 
页 面 会 出 现 啊 应 延迟 的 状况 。 因 此 ， 我 们 在 Apache 的 前 端 再 准备 一 个 
不 同 染 构 的 Web 服务 器 lighttpd 作为 反 同 代理 ， 将 API 和 正常 的 请 求 分 
类 ， 使 处 理 效率 得 以 提高 。 这 样 优化 架构 以 后 就 能 快速 地 做 出 啊 应 了 。 


数据 库 
在 可 扩展 性 和 稳定 性 方面 ， 数 据 库 容易 成 为 瓶 倾 。Hatena 全 面 及 用 了 


MySQL 数据 库 。 初 期 阶段 的 Hatena 使 用 了 PostgreSQL， 之 后 很 快 便 转 
到 了 MySQL， 并 沿用 至 今 。2008 年 是 MySQL 4.0 系统 和 MySQL 5.0 








系统 共存 的 状态 。 笔 者 个 人 希望 不 再 继续 使 用 淘汰 的 4.0 系统 ， 而 是 全 
部 迁移 到 5.0 系统 ， 但 因为 4.0 系统 和 5.0 系统 时 间 惟 的 记录 不 同 ， 要 
想 全 部 迁移 到 5.0， 必 须 重 写 应 用 程序 ， 所 以 不 太 容 易 进 行 。 


MySQL 采取 了 主人 从 (Master-Slave) 同步 结构 ，Slave 集群 也 通过 LVS 
实现 了 负载 均衡 ， 当 其 中 一 台 Slave 发 生 故 障 时 ， 会 自动 阻止 请 求 发 往 
遭遇 故障 的 服务 器 ， 从 而 增强 了 可 用 性 。 


另外 ， 已 经 迁移 到 MySQL 5.0 的 数据 库 采 用 了 多 主 (Master) 结构 ， 通 
过 keepalived 切换 Active/Standby， 实 现 了 主 数 据 库 的 见 余 (图 
6.1.2) 。 多 主 结构 的 具体 设置 如 代码 清单 6.1.1 所 示 。 通 过 此 设置 ， 多 
个 Master 就 变 成 了 “ 互 为 主 从 ”的 关系 ， 彼 此 的 写 入 会 被 传递 到 对 方 。 但 
在 采用 多 主 结构 的 情况 下 ， 指 定 auto increment 的 地 方 可 能 会 出 现 
INSERT 冲突 的 问题 。 因 此 MySQL 在 进行 autoincrement 时 ， 需 要 指定 
增长 量 (auto_increment increment) 和 偏 移 量 

(auto_increment_offset) ， 这 样 就 能 够 在 多 主 结构 下 正确 使 用 auto 


increment J 。 





“正常 时 发 送 到 数据 库 的 请 求 “发 生 故 障 时 发 送 到 数据 库 的 请 求 
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本 不 影响 服务 的 情况 下 进行 维护 


Master 的 
数据 库 
( Standby ) 


Miaste r 的 
数据 库 
( Active ) 


图 6.1.2 MySQL 的 多 主 结构 
代码 清单 6.1.1 多 主 结构 的 配置 





e 服 务 器 A (192.168.1.1) 
server -id=16601 
master-host = 192.168.1.1 


master-user = repli 
auto increment increment = 16 
auto increment offset = 1 


e 服 务 器 B (192.168.1.2) 
server-id=16062 
master-host = 192.168.1.2 


master-user = repli 
auto increment increment = 16 
auto increment offset 三 之 





此 外 ， 即 使 在 不 使 用 auto increment 的 数据 库 结 构 中 部 署 了 
Active/Active (多 主 ) 配置 ， 根 据 应 用 程序 行为 的 不 同 ， 也 有 可 能 会 因 





为 Duplicate Entry 错误 而 导致 同 步 中 断 。 因 此 ， 需 要 在 每 个 主 服 务 器 上 
安装 keepalived， 根 据 VRRP 来 配置 Active/Standby， 让 执行 修改 类 的 
SQL 语句 只 在 一 方 进行 处 理 。 据 此 ， 不 管 应 用 程序 的 行为 如 何 ， 在 任何 
情况 下 都 可 以 稳定 运行 了 。 


为 数据 库 的 表 添 加 列 ， 或 者 执行 表 的 优化 操作 时 ， 在 传统 的 主 从 结构 
下 ， 进 行 这 些 维护 必须 停止 服务 ， 而 在 迁移 到 多 主 结构 的 数据 库 中 ， 则 
可 以 在 不 影响 服务 的 正常 提供 的 情况 下 进行 ， 可 以 说 回 前 近 出 了 一 大 


I 
Vo 


在 主机 名 (Active〉 和 主机 妨 (Stand-by〉 的 多 主 结构 中 ， 具 体 程序 如 下 
所 示 : 


。 在 主机 妨 (Stand-by) 上 停止 keepalived 











。 分 别 在 主机 和 主机 妨 上 运行 SLAVE STOP， 停 止 同步 
在 主机 四 上 执行 添加 列 等 维护 操作 

。 在 主机 四 上 运行 SLAVE START， 人 恢复 从 四 到 @@ 的 同步 
等 待 主机 @ 的 同步 赶 上 主机 全 


启动 主机 四 的 keepalived， 停 止 主机 外 的 keepalived， 将 主机 四 恢 
复 为 Active 


。 在 主机 名 上 执行 SLAVESTART， 人 恢复 从 四 到 @@ 的 同步 
。 等 待 主机 鸟 的 同步 赶 上 主机 中 
。 启动 主机 鸟 的 keepalived， 将 主机 包 恢 复 为 Active 


这 是 一 个 复杂 的 过 程 ， 但 这 样 束 可 以 在 服务 不 停止 的 情况 下 进行 否 干 次 
维护 。 不 过 这 里 必须 保证 所 实施 的 维护 的 内 容 与 并 行 运行 的 Active 的 更 
新 内 容 不 冲突 。 例 如 ， 在 添加 列 到 现 有 表 时 ， 如 果 被 添加 列 的 内 容 全 部 
都 可 以 为 默认 值 ， 束 没有 冲突 问题 ， 男 一 方面 ， 在 进行 删除 列 的 维护 
时 ， 在 Active 一 方 对 列 的 删除 做 出 反映 之 前 就 运行 Insert 语句 的 情况 
下 ， 若 Insert 语句 中 包括 该 列 的 项 目 ， 就 会 在 “等 待 主机 如 的 同步 赶 上 主 
机 名 "时 发 生 同步 错误 。 因 此 像 后 者 这 样 ， 在 恢复 同步 时 因 错 误导 致 同 
步 终止 的 情况 下 ， 必 须 中 断 服 务 进 行 维护 。 


多 主 的 男 一 个 问题 是 ， 当 访问 量 增加 时 ， 仪 靠 两 台 Master 将 无 法 处 理 
访问 ， 而 必须 增加 Slave。 各 Slave 都 从 属于 某 一 台 Master， 如 果 自 己 
从 属 的 Master 出 现 故 障 ， 而 只 有 一 个 Master 运行 的 话 ， 束 会 导 仅 更 新 
信息 无 法 传递 给 出 现 故障 的 Master 下 所 挂 载 的 Slave 数据 库 。 因 此 ， 当 
出 现 故 障 时 只 能 通过 别 的 方式 传递 更 新 信息 ， 或 者 停止 出 现 故 障 那 边 的 
Slave 数据 库 ， 这 个 问题 目前 还 没有 找到 很 好 的 应 对 措施 。 


如 果 能 够 采用 前 者 的 方式 ， 从 尚未 出 现 故 障 的 Master 获得 更 新 信息 当 
然 非 第 理想 ， 但 是 从 MySQL 的 同步 机 制 上 来 看 这 比较 困难 ， 因 此 如 采 
要 应 对 的 话 ， 也 只 能 采用 后 者 的 方式 ， 即 停止 出 现 故 障 那 边 的 Slave 数 
据 库 ， 但 这 样 做 会 导致 处 理 能 力 减 半 ， 如 果 服 务 需 资源 不 够 充足 ， 在 高 
峰 时 间 就 很 可 能 发 生 更 为 严重 的 故障 。 虽 然 这 一 问题 现在 还 没有 到 不 得 
不 解决 的 地 步 ， 但 在 不 久 的 将 来 还 是 要 必须 面 对 的 。 


文件 服务 器 


和 数据 库 一 样 ， 文 件 服务 器 的 可 扩展 性 和 稳定 性 也 容易 遭遇 瓶颈 。 在 
Hatena， 文 件 服务 器 均 已 使 用 DRBD 十 keepalived 进行 过 元 余 处 理 ， 通 
过 使 用 lighttpd 的 反 回 代理 优化 的 API， 还 有 通过 Squid 优化 的 缓存 ， 

从 而 在 见 余 和 高 速 之 间 取 得 了 平衡 。 男 外 在 DRBD 上 元 余 的 块 设备 使 
用 OCFS2 (Oracle Cluster File System for Linux2) 3 集群 文件 系统 进行 
了 格式 化 ， 通 过 使 用 集群 文件 系统 ， 束 可 以 使 DRBD 的 Active 一 方 提 
供 服 务 ，Backup 一 方 进行 备份 ， 这 样 日 党 的 备份 工作 所 造成 的 IO 压力 

















就 不 会 影响 到 服务 的 提供 了 。 


3URL http://0ss.oracle.com/projects/ocfs2/ 


6.1.3 ”提高 运营 效率 
投入 新 服务 器 到 基础 设施 生产 环境 时 ， 应 注意 以 下 几 点 : 

。 硬件 的 组 装 和 配置 

。 安装 系统 

。 安装 并 配置 应 用 程序 所 需 的 库 等 

。 配置 监控 等 其 他 基础 设施 所 需 的 运行 准备 

。 根据 服务 器 的 作用 部 蜀 应 用 和 配置 数据 库 

。 部 署 负载 均衡 器 ， 以 局 动 生 产 环境 
根据 应 用 的 行为 进行 配置 、 完 成 数据 库 的 数据 同步 操作 时 ， 通 常 都 会 相 
当 耗 时 。 但 这 之 外 的 部 分 ， 基 本 都 实现 了 流水 线 化 的 自动 作业 ， 例 如 从 
硬件 的 安装 到 实际 投入 使 用 ， 几 乎 不 需要 管理 员 参 与 。 
下 面 简单 地 介绍 一 下 其 流程 。 
安装 Kickstart 
Hatena 的 服务 器 基本 上 都 是 从 基础 零件 组 装 的 。 这 部 分 纯粹 是 靠 人 海战 
术 ， 确 实 需 要 一 定 的 时 间 。 组 装 完 服务 器 并 设 定 BIOS 之 后 ， 首 先 用 
Kickstart 进行 操作 系统 的 安装 ， 除 了 通常 所 需 的 最 低 限 度 的 操作 系统 的 
安装 之 外 ， 还 应 该 进行 LDAP (Lightweight Directory Access Protocol) 
的 配置 ， 以 及 使 用 autofs 进行 用 户 登 录 方 面 的 设 定 ， 此 外 还 有 Puppet 
的 初始 配置 ， 男 外 还 可 以 根据 需要 配置 将 自己 的 了 P 地 址 发 送 给 工程 师 
进行 沟通 所 使 用 的 IRC 消息 频道 。 鉴 于 这 里 会 安装 大 量 的 软件 包 ， 所 以 
需要 一 定 的 时 间 。 


这 样 一 来 ， 在 BIOS 的 设置 完成 后 重启 设备 ， 就 完全 可 以 进行 远程 操作 











全 
软件 包 管 理 和 Puppet 
通常 在 进行 “安装 并 配置 应 用 程序 所 需 的 库 等 ”以 及 “配置 监控 等 其 他 基 
础 设施 所 需 的 运行 准备 ”等 工作 时 ， 需 要 花费 相当 多 的 人 力 和 时 间 。 但 
这 里 通过 建立 或 引入 以 下 两 种 工具 : 

。 全 部 使 用 rmp 安装 包 或 使 用 yum 一 键 安装 

。 Puppet (自动 化 配置 管理 工具 ， 具 体 请 参考 5.3 节 ) 
就 几乎 实现 了 自动 化 ， 可 以 大 幅度 减少 配置 花 引 的 时 间 。 
前 者 是 指 在 希望 使 用 MySQL 的 特定 版 本 或 Apache 需要 一 些 非 标 准 库 
时 ， 使 用 rpm 包 或 通过 yum 工具 进行 安装 。 比 较 矿 烦 的 是 大 量 的 
CPAN 模块 ， 这 里 通过 分 析 CPAN 的 依赖 关系 可 以 自制 脚本 打包 成 
rpm， 这 样 CPAN 模块 也 几乎 可 以 目 动 转换 为 rpm 包 。 据 此 ，Hatena 应 
用 所 依附 的 多 达 200 余 个 CPAN 模块 也 可 以 轻松 地 进行 部 署 了 4。 


4 打包 为 pm 后， 更 新 依赖 于 CPAN 模块 的 应 用 也 变 得 更 容易 了 。 

















在 5.3 节 中 介绍 的 Puppet， 通 过 逐渐 积累 运营 诀 竺 ， 使 服务 器 所 需 的 初 
台 配 置 实现 了 自动化。Puppet 经 常 被 用 于 一 些 很 少 需要 调整 的 配置 中 ， 
例如 域名 服务 器 的 设置 和 sshd 的 设置 ， 以 及 后 端 服务 器 和 数据 库 服 务 
器 的 基础 设置 。 至 于 各 应 用 程序 需要 根据 负载 情况 详细 修改 配置 的 配置 
文件 ， 则 仅 部 署 初 始 化 文件 ， 其 余 的 设置 则 依赖 人 工 调整 而 不 使 用 
Puppet。 


从 Puppet 的 特征 上 来 看 ， 设 置 的 微调 也 需要 多 个 步骤 的 元 余 操 作 。 通 
常 需要 采用 试 误 法 (Try and Error) 来 尝试 多 次 重 写 配置 ， 例 如 Apache 
的 httpd.conf 和 MySQL 的 my.cnf 等 配置 文件 ， 考 虑 到 配置 生效 的 速度 
和 效率 ， 最 好 由 各 个 管理 员 提前 编号 几 个 不 同情 况 下 的 配置 文件 ， 届 时 
直接 更 换 合 适 的 配置 文件 就 可 以 了 。 


在 服务 器 的 设置 完成 之 后 ， 就 能 够 轻松 地 部 署 应 用 程序 并 确认 程序 的 运 
. 其 后 再 更 新 负载 均衡 桌 (LVS) 的 设置 ， 新 服务 圳 的 投入 工作 就 结 
于 




















服务 器 的 管理 和 监控 

鉴于 笔者 平时 经 名 会 对 服务 器 进行 添加 、 设 置 和 微调 等 操作 ， 因 此 需要 
了 解 某 服 务 是 在 哪个 服务 器 上 运行 的 ， 还 需要 准确 了 解 各 个 服务 器 的 有 具 
体 规格 。 以 前 我 们 的 管理 团队 是 通过 Hatena 集团 的 关键 字 功 能 (“类似 
Wiki 那样 的 实现 ) 来 管理 列表 的 ， 但 由 于 更 新 过 程 过 于 复杂 ， 很 容易 
出 现 更 新 丝 漏 ， 例 如 御 音 在 想 使 用 某 服务 时 才 发 现 该 服务 其 实 是 在 其 他 
服务 器 上 运行 的 。 


造成 这 一 问题 的 最 大 原因 是 ， 大 改变 一 个 服务 器 的 作用 ， 束 会 补 连 到 下 
述 多 项 需要 更 正 的 项 目 ， 所 以 很 难 避免 人 为 错误 。 


。 修改 服务 器 管理 关键 字 
。 更改 Nagios 监控 的 设置 


。 在 视图 监控 工具 MRTG (Multi Router Traffic Grapher) ”上 修改 
配置 


。 更改 应 用 程序 部 署 的 目标 列表 
。 更 改 LVS 的 配置 


SURL http://0ss.oetiker.ch/mrtg/ 





接 下 来 开始 自行 建立 服务 器 管理 工具 。 我 们 的 目标 是 : 只 需 修改 服务 器 
管理 工具 上 面 的 数据 ， 相 应 的 配置 就 会 自动 得 到 修改 。 在 目前 情况 下 ， 
通过 利用 MRTG 的 视图 化 接口 ， 在 自行 建立 的 服务 器 管理 工具 上 加 入 
视图 监控 等 功能 ， 这 样 一 来 就 能 在 部 署 时 避免 更 新 目标 对 象 列表 了 ， 即 
无 需 手 动 修改 配置 文件 ， 通 过 视图 端 束 能 完成 监控 操作 。 今 后 视图 端 还 
会 添加 LVS 和 Nagios 的 控制 台 。 


服务 器 管理 工具 能 够 输出 诸如 服务 器 台数 以 及 各 种 规格 的 服务 器 台数 统 
计 人 信息， 结合 Hatena Graph 的 相关 功能 ， 还 能 够 掌握 基础 设施 规模 和 架 
构 的 变革 。 最 近 发 现 Hatena 的 基础 设施 中 依然 在 使 用 Pentium MMX， 
笔者 不 由 得 有 些 感慨 。 


该 服务 器 管理 工具 将 作为 OSS 开源 软件 进行 公布 。 








使 用 Capistrano 部 署 


Capistrano 是 很 有 历史 的 应 用 程序 部 署 工 具 了 ， 它 几乎 能 一 键 完 成 部 
署 操 作 。Capistrano 是 使 用 Ruby 语言 开发 的 应 用 部 得 工具 ， 不 仪 可 以 
应 用 于 Ruby on Rails 的 Web 应 用 框架 ， 还 能 应 用 于 其 他 比如 PHP 开发 
的 Web 应 用 上 。 通 过 使 用 该 工具 ， 就 可 以 将 需要 执行 的 任何 命令 发 送 
0 台 服 务 器 批量 执行 ， 还 可 以 在 shell 中 交互 式 地 执行 命令 ， 非 常 方 
蝎 。 








6URL http://www.capify.org/ 


在 Hatena， 并 没有 像 这 样 直接 使 用 Capistrano， 而 是 对 Capistrano 的 功 
能 进行 了 一 部 分 调整 。 例 如 通过 上 述 服务 器 管理 工具 的 API 获得 发 送 部 
署 等 命令 的 目标 服务 器 列表 等 。 因 此 ， 即 使 基础 设施 的 维护 团队 增设 了 
服务 器 ，Web 应 用 程序 开发 者 也 可 以 不 考虑 这 一 点 ， 无 障碍 地 进行 应 用 
程序 的 部 署 和 更 新 等 。 


6.1.4 用 电 效 率 . 提 高 资源 的 利用 率 

运行 大 量 的 服务 器 并 不 断 增 强 其 性 能 ， 基 础 设施 的 运营 成 本 必然 会 增 
加 。 这 样 就 产生 了 一 个 问题 一 一 是 继续 使 用 现 有 的 服务 器 呢 ? 还 是 引进 
效率 较 高 的 新 服务 器 呢 ? 


Hatena 不 仅 重 视 购买 服务 器 的 费用 等 初期 成 本 的 压缩 ， 同 时 也 重视 用 电 
因此 ， 日 常会 基于 以 下 三 个 观点 进行 服务 器 的 调度 和 配 











。 在 配备 和 调度 服务 器 时 ， 重 视 服 务 器 每 1A 所 发 挥 的 性 能 
。 尽 可 能 提高 每 台 服 务 器 的 性 能 ， 根 据 虚 拟 化 技术 分 割 利用 
。 不 安装 无 用 的 零件 
重视 服务 器 每 1A 所 发 挥 的 性 能 
在 选择 服务 器 时 ， 大 多 数 情 况 下 人 们 都 会 比较 重视 硬件 本 身 的 价格 ， 而 


往往 忽视 硬件 的 耗 电 量 。 而 在 服务 器 制造 商 提供 的 参数 列表 中 ， 往 往 耗 
电量 写 得 也 并 不 那么 明确 。 在 Hatena， 也 有 自己 组 装 的 人 硬件， 在 评定 耗 


电量 时 ， 不 仅 是 CPU 和 攻 片 组 ， 内 存 、 人 硬盘 和 电源 闭 置 的 耗 电 量 也 都 
要 一 一 进行 测试 ， 并 根据 测试 结果 来 选择 。 


对 于 现 有 的 、 已 经 在 生产 环境 中 的 服务 器 ， 也 会 通过 更 换 一 部 分 零件 来 
提高 性 能 ， 降 低 耗 电量 。 最 近 的 案例 中 ， 最 具 代 表 性 的 是 从 Core2 Duo 
的 CPU 更 换 为 “Core2 Quad”， 据 此 束 实 现 了 性 能 翻 倍 且 耗 电量 不 变 的 效 
果 。 这 时 据 Core2 Duo 的 引入 大 约 只 经 过 了 一 年 的 时 间 ， 束 迅速 转变 为 
了 Core2 Quad， 目 前 Core2 Duo 只 保留 了 全 盛 时 期 的 1/3 左右 。 通 过 这 
个 调换 工作 ， 融 能 够 在 不 增加 服务 器 的 情况 下 增强 服务 器 的 承载 量 ， 同 
人 电源 成 本 ， 从 而 有 助 于 基础 设施 成 本 
压缩。 


充分 利用 每 台 服 务 占 的 性 能 


如 上 所 述 ， 从 Core2 Duo 转换 到 Core2 Quad 后 ， 将 原本 Core2 Duo 服务 
器 的 软件 放 到 Core2 Quad 服务 器 上 并 进行 见 余 ， 接 下 来 就 产生 了 男 一 
个 问题 ， 那 束 是 不 能 充分 利用 现 有 服务 器 的 性 能 。 鉴 于 Core2 Quad 的 
性 能 非常 高 ， 仪 用 1 台 束 能 够 处 理 某 种 程度 的 并 发 量 ， 如 果 是 用 于 小 型 


服务 的 话 ， 残 会 浪费 其 性 能 优势 ， 更 何况 为 了 进行 元 余 还 要 准备 2 台 ， 
除非 是 相当 规模 的 服务 ， 否 则 Core2 Quad 服务 器 的 性 能 肯定 无 法 被 充 
分 利用 。 鉴 于 每 台 服 务 器 的 性 能 还 会 逐渐 提高 ， 这 种 趋势 会 变 得 更 加 明 


显 





在 这 种 情况 下 ， 虽 然 使 用 廉价 的 CPU 也 是 一 个 解决 方案 ， 但 是 实体 
CPU 的 价格 及 耗 电量 等 都 不 具有 优势 ， 因 此 就 会 导致 为 了 支撑 小 型 务 
而 花费 较 大 成 本 的 情况 。 在 Hatena， 通 过 引进 虚拟 化 技术 Xen， 实 现 了 
更 有 效 的 服务 器 资源 的 利用 。 


使 用 Xen ”， 可 以 实现 在 1 台 物 理 服 务 器 ( 母 机 〉 上 提供 多 台 虚 拟 服务 
Er > ， 但 子 机 分 配 的 资源 要 在 母 机 内 存 、 硬 盘 和 负载 容许 的 条 件 
下 进行 。 





7URL http://www.xen.org/ 


目前 Hatena 的 标准 配置 是 ， 将 首先 启动 的 母 机 的 操作 系统 〈Xen 的 术 
语 为 Dom0) 用 于 管理 ， 仪 为 其 分 配 最 低 限 度 的 硬盘 和 内 存 ， 男 外 生成 
藻 干 个 子 机 的 操作 系统 (Xen 的 术语 为 DomU)〉。 例 如， 用 两 台 服 务 器 


建立 AP 服务 器 的 DomU 和 多 主 数据 库 的 DomU， 这 里 准备 两 台 的 原因 
是 为 了 进行 元 余 ， 实 现 当 一 台 服 务 器 出 现 硬件 故障 时 ， 也 可 以 分 别 保留 
一 个 AP 服务 器 和 数据 库 的 DomU。 之 所 以 分 离 Ap 服务 器 和 数据 库 ， 
是 为 了 方便 在 未 来 服务 成 长 时 将 各 个 DomU 部 署 到 不 同 的 服务 器 。 


此 外 ， 数 据 库 服务 器 的 内 存 容 量 和 IO 性 能 容易 成 为 瓶颈 ，AP 服务 器 
的 CPU 性 能 容易 成 为 瓶颈 。 因 此 ， 通 过 将 数据 库 服务 器 剩余 的 CPU 资 
源 配 入 到 AP 服务 器 的 DomU 上 ， 这 样 就 能 够 充分 利用 CPU 及 IO 资 
源 了 。 


KR 


Hatena 通过 这 一 方式 逐步 推进 了 基础 设施 资源 的 有 效 利 用 (图 
6.1.3) ， 目 前 物理 服务 器 的 台数 是 350 台 左 右 ， 虚 拟 的 子 机 服务 器 数量 
要 比 物理 服务 器 多 20% 左右 。 





图 6.1.3 基础 设施 资源 的 有 效 利用 


鉴于 每 台 服 务 器 的 耗 电量 会 随 着 资源 利用 率 的 提高 而 增加 ， 因 此 单 台电 
源 实际 连接 的 服务 器 台数 要 比 想 象 中 少 。 


不 安装 无 用 的 零件 
提高 电源 效率 的 吃 一 个 方法 就 是 不 安装 无 用 的 零件 。 比 如 ， 不 安装 廉价 


的 内 存 、 控 制 便 盘 容 量 、 不 组 朔 无 用 的 RAID 等 。 现 在 Hatena 正在 引 
入 原本 就 没有 硬盘 的 无 盘 服务 髓 。 











无 盘 服 务 器 ， 顾 名 思 义 ， 就 是 没有 硬盘 的 服务 器 ， 它 的 优点 是 能 够 减少 
耗 电量 、 减 少 硬件 故障 发 生 率 、 容 易 通 过 网 络 引 导 修 改 所 部 署 的 服务 的 
配置 。 缺 点 在 于 不 能 上 自行 司 动 、 日 志 等 不 能 在 本 地 保存 、 相 对 于 有 盘 服 
务 嚣 运行 不 那么 稳定 等 。 

Hatena 的 无 盘 服 务 器 有 以 下 几 个 特点 : 

。 通 过 网 络 引 导 和 DHCP 进行 服务 器 作用 的 配置 

。 基于 虚拟 化 技术 的 高 维护 性 

。 通 过 联合 文件 系统 8 和 文件 服务 器 进行 松 耘 合 


8 即 Aufs。Aufs 是 Another Unionfs 的 简称 ， 是 一 个 类 似 于 Unionfs 的 可 堆 受 联合 文件 系统 。 
URL http://aufs.sourceforge.net/ 











实际 上 ， 文 件 服务 器 启动 后 ， 会 按照 如 下 流程 依次 启动 : 
。 通 过 DHCP， 根 据 MAC 地 址 获取 IP 地 址 和 磁盘 映像 的 路 径 


。 在 初始 root 上 获取 磁盘 上 映像， 并 将 已 经 获取 磁盘 映像 的 root 作为 
实体 root 进行 挂 载 


。 月 动 实 体 root 


通常 只 在 启动 时 才 需 要 和 外 部 文件 服务 器 及 DHCP 服务 器 等 进行 连接 ， 
在 系统 局 动 后 ， 即 使 切断 和 这 些 服务 器 的 连接 也 可 以 继续 运行 。 在 局 动 
后 ， 大 需要 部 团 应 用 程序 等 ， 文 件 将 会 被 更 新 ， 这 里 所 更 新 的 内 容 会 自 
动 写 回 到 磁盘 映像 中 ， 用 户 在 使 用 时 甚至 不 会 察觉 到 这 是 无 盘 服务 器 。 
但 是 ， 被 分 配 了 相同 任务 的 无 僵 服 务 器 可 能 都 是 通过 同一 镜像 月 动 的 ， 
这 一 点 需要 留意 。 

使 用 无 盘 服 务 器 ， 例 如 添加 新 的 后 端 服务 器 进行 负载 均衡 时 ， 只 需 改 写 
DHCP 的 配置 文件 ， 并 局 动 相 应 的 服务 器 ， 服 务 器 就 能 够 目 动 下 载 合 适 
的 磁盘 上 映像， 并 将 其 投入 使 用 。 


6.1.5 为 了 自律 的 基础 设施 而 努力 
在 这 一 两 年 中 ，Hatena 的 基础 设施 在 负载 均衡 、 了 元 余 、 提 高 资源 利用 率 








方面 积累 了 不 少 经 验 ， 现 在 已 经 拥有 一 套 能 够 承 党 相当 规模 的 访问 量 的 
服务 器 并 实现 高 效 运作 了 。 不 过 还 有 一 些 地 方 需要 依靠 专业 人 员 的 设 
置 ， 或 者 需要 反复 手动 进行 微调 。 平 时 随 着 并 发 量 的 增加 ， 服 务 数 量 及 
类 型 也 在 持续 增加 ， 在 基础 设施 技术 方面 ， 例 如 在 虚拟 化 技术 上 ， 需 要 
调整 的 地 方 还 有 很 多 。 随 着 运作 效率 的 提升 ， 服 务 器 资源 余 量 会 越 来 越 
少 。 因 此 也 很 容易 想象 到 在 不 久 的 将 来 ， 管 理 者 将 在 这 些 细 市 的 调整 上 
化 费 越 来 越 多 的 时 间 。 


希望 今后 可 以 根据 这 些 在 已 有 设备 的 调试 方面 所 积蓄 的 经 验 ， 使 各 服务 
器 的 调整 、 增 设 、 撤 除 逐 步 实现 目 动 化 。 例 如 ， 监 控 Apache 的 进程 ， 
如 果 负 载 增 大 就 增加 MaxProcess， 如 果 进 程 的 内 存 消 耗 增 加 吏 缩 小 
MaxProcess 和 RequestsPerChild， 这 些 想 必 很 快 束 能 实现 。 此 外 ， 如 果 
能 将 无 盘 服 务 器 的 运用 很 好 地 推 入 正轨 ， 似 乎 也 能 很 容易 实现 动态 增加 
或 减少 某 一 作用 的 服务 器 。 


像 这 样 不 断 地 突破 手动 的 自主 控制 ， 基 础 设施 就 会 变 得 像 生物 一 样 。 各 
服务 器 独立 运行 ， 出 现 故 障 就 目 行 修复 ， 耕 负载 增加 就 强化 该 部 分 ， 寿 
长 期 不 使 用 就 让 其 弱化 。 当 然 硬 件 层面 的 工作 仍 需 人 工 进行 ， 但 针对 可 
以 用 软件 完成 的 逻辑 部 分 ， 则 构筑 像 生物 那样 自律 硕 强 的 “生态 系统 ”。 
笔者 认为 ， 这 将 是 基础 设施 的 终极 形态 。 














6.2 DSAS 的 内 容 


6.2.1 什么 是 DSAS 

DSAS (Dynamic Server Assign System) 是 KLab 公司 ?使 用 的 服务 器 : 
网 络 基 础 设施 的 统称 。 目 前 在 东京 和 福 办 的 数据 中 心 有 300 多 台 服 务 器 
运行 着 (照片 6.2.1) 。 


IURL http://www.klab.com/jp/ 





照片 6.2.1 DSAS 的 外 观 
本 节 将 对 DSAS 的 特征 和 内 部 结构 进行 介绍 。 
6.2.2 DSAS 的 特征 
首先 我 们 来 看 一 下 DSAS 的 几 大 特征 ， 然 后 再 逐条 进行 讲解 。 

。 一 个 系统 容纳 多 个 网 站 

。 使 用 开源 软件 搭建 

。 ， 网 络 服 务 都 不 会 停止 

。 服务 器 增设 非常 简单 

。 故障 修复 非常 简单 
一 个 系统 容纳 多 个 网 站 
每 当 设 立新 的 网 站 时 都 要 重新 搭建 服务 器 或 网 络 ， 此 时 整体 拓扑 结构 就 
如 图 6.2.1 所 示 。 在 这 个 拓扑 中 ， 当 网 站 A 的 流量 剧 增 时 ， 即 便 此 时 的 
服务 器 已 经 无 法 进行 这 些 处 理 ， 也 不 能 挪用 网 站 B 的 服务 器 来 帮助 其 进 
行 处 理 ， 因 此 就 需要 根据 访问 高 峰 时 所 需 的 服务 器 台数 ， 为 网 站 A 增 
设 服务 器 。 若 平时 的 访问 量 都 比较 多 的 话 那 还 能 接受 ， 但 如 果 只 是 为 了 
(比如 有 优惠 活动 时 〉 而 增设 服务 器 的 话 ， 成 本 就 太 
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若 网 站 A 的 访问 量 增加 ， 
则 需要 增设 服务 器 
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图 6.2.1 分 别 为 各 网 站 搭建 系统 


DSAS 的 拓扑 结构 如 图 6.2.2 所 示 ， 多 个 网 站 共用 一 个 系统 。 而 且 网 站 

使 用 的 服务 器 也 可 以 动态 地 进行 改变 蕊 。 如 此 一 来 ， 即 使 网 站 A 的 访 

问 量 剧 增 ， 也 可 以 暂时 利用 网 站 B 的 服务 器 来 应 对 。 让 一 个 系统 容纳 多 
个 网 站 ， 可 以 避免 服务 器 资源 的 浪费 。 










| "psAs" 的 名 字 就 是 由 “可 以 智能 进行 服务 器 的 调配 ?这 一 特点 得 来 的 。 
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图 6.2.2 一 个 系统 容纳 多 个 网 站 
使 用 开源 软件 搭建 


DSAS 的 服务 器 架构 如 图 6.2.3 所 示 。 虽 然 根 据 作用 分 为 了 “前 端 服 务 
器 ”和 “后 端 服 务 器 ”， 但 全 部 的 服务 器 都 是 基于 Linux (Debian 
GNU/Linux 4.0) 这 一 开源 系统 搭建 的 。 表 6.2.1 是 使 用 的 软件 清单 。 关 
于 前 端 服务 器 和 后 端 服 务 器 ， 请 参考 表 6.2.2 和 表 6.2.3。 
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图 6.2.3 DSAS 的 服务 器 架构 
表 6.2.1 主要 使 用 的 软件 
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qmail 














通过 使 用 Linux 搭 建 的 负载 均衡 器 。 可 以 将 终端 用 户 的 请 求 分 流 到 不 同 的 web 服 务 器 
进行 处 理 。 这 里 可 以 利用 已 经 扩展 了 健康 检查 功能 的 keepalived， 编 写 独自 的 维护 



























































为 了 能 够 动态 修改 服务 器 的 配置 ， 必 须 保 证 “所 有 服务 器 的 内 容 相 同 ”。 因 此 ， 在 更 
新 网 站 时 最 好 只 对 主 服 务 器 部 署 ， 其 后 再 运行 专用 的 命令 扩展 到 所 有 服务 器 








为 终端 用 户 提供 web 服务 的 服务 器 。 在 所 有 的 服务 堪 上 部 嗜 所 有 的 网 站 ， 就 可 以 让 

















任何 服务 器 为 任何 网 站 提供 服务 。 Web 服 务 器 使 用 Apache，AP 服 务 器 使 用 Tomcat 及 
PHP 等 








表 6.2.3 ”后 端 服 务 器 








数据 库 服 务 器 使 用 MySQL 。 这 是 由 一 台 Master 和 两 台 Slave 构 成 的 三 台 主 机 的 最 小 架 
构 ， 有 具体 还 可 根据 需要 增加 Slave 的 台数 。 当 Master 由 于 故障 而 停止 时 ， 将 把 Slave 转 
换 为 Master 进 行 修 复 
































TS (Temporary Share ) 
保存 临时 数据 (缓存 或 会 话 数据 等 ) 的 数据 库 。 使 用 了 软件 repcached〈 见 下 文 ) ， 
并 在 该 软件 上 增加 了 同步 到 memcached 的 功能 
PS (Permanent Share) 、BK (Backup ) 
保存 永久 性 数据 《网 站 内 容 数据 等 ) 的 存储 服务 器 。 利 用 第 3 章 介 绍 的 DRBD 技 术 实 
现 了 元 余 。 这 里 不 仅 可 以 应 用 于 NFS， 而 且 在 HTTP 上 也 可 以 实现 读 取 文 件 的 操作 。 
BK 是 备份 服务 器 ， 定 期 备份 PS 服务 器 的 文件 


























了 负载 均衡 器 。 与 LVS 一 样 使 用 keepalived 搭 建 ， 被 用 于 DNS 或 MySQL 的 负载 分 流 











收集 Apache 日 志 等 的 服务 器 。 收 集 各 Web 服 务 器 的 日 志 并 合并 ， 被 用 于 
等 。 此 外 还 使 用 了 5.2 节 中 介绍 的 Ganglia， 来 维持 各 服务 器 的 正常 运行 
































无 论 切 断 任 何 地 方 ， 网 络 服务 都 不 会 停止 


图 6.2.4 是 网 络 的 物理 接线 图 。 因 为 完全 实现 了 元 余 ， 所 以 切断 任何 地 

方 网 络 都 不 会 中 断 。 这 里 对 二 层 交 换 机 使 用 了 RSTP 进行 见 余 ， 服 务 器 
方面 则 使 用 了 驱动 绑 定 。Internet 线路 有 两 条 ， 即 使 一 条 链 路 失效 ， 也 

没有 什么 影响 。 











图 6.2.4 物理 接线 图 


服务 器 增设 非常 方便 


主 服 务 器 以 外 的 服务 器 ， 全 部 实现 了 网 络 引 导 。 网 络 引 导 的 优 点 是 增设 
服务 器 时 不 需要 索 琐 的 部 普 工 作 。 即 使 是 刚 买 的 磁盘 轩 新 的 服务 器 ， 只 
要 在 BIOS 中 开局 网 络 引 导 ， 就 能 并 即 局 动 操作 系统 。 根 据 启动 时 所 输 
入 的 参数 ， 可 以 让 它 成 为 Web 服务 器 、 负 载 均衡 喜 或 数据 库 服务 需 。 


故障 修复 非常 简单 


使 用 RSTP 进行 二 层 交 换 机 的 宛 余 的 情况 并 不 少见 ， 不 过 ， 图 6.2.4 的 
特点 是 Internet 线路 与 二 层 交 换 机 是 直接 连接 的 。 负 载 均 衡器 是 Linux 
机 器 ， 行 为 与 其 他 服务 器 类 似 。 因 此 ， 若 Internet 线路 直接 连接 负载 均 
衡器 ， 必 须 在 两 台 服 务 器 (负载 均衡 器 ) 上 增加 网 卡 。 当 负载 均衡 器 由 
于 故障 等 停止 时 ， 还 需要 为 备份 机 器 增加 网 卡 并 重新 连接 网 线 。 


为 了 解决 这 个 麻烦 ， 这 里 让 二 层 交 换 机 来 容纳 Internet 线路 ， 将 所 有 服 
务 吉 的 物理 线路 汇集 在 一 起 “详情 见 3.3 节 ) 。 当 负载 均衡 器 出 现 故障 
时 ， 选 定 一 合 服务 器 作为 蔡 代 机 并 重新 局 动 。 此 时 ， 通 过 网 络 引导 的 局 
动 参数 指示 其 为 负载 均衡 闫 。 这 项 工作 全 部 可 以 远程 进行 ， 即 使 不 到 数 
据 中 心 也 能 实现 故障 的 修复 工作 ， 实 现 了 彻底 的 元 余 结 构 。 


6.2.3 系统 架构 的 详情 
DSAS 是 由 各 种 开源 软件 构成 的 。 这 里 将 选取 DSAS 的 几 个 特点 ， 对 其 


























中 精心 设计 的 地 方 以 及 容易 出 问题 的 地 方 加 以 介绍 。 
使 用 驱动 绑 定 的 原因 


当 以 元 余 为 目的 使 用 多 块 网 卡 时 ， 可 能 需要 考虑 为 各 个 网 卡 分 配 卫 地 
址 ， 但 是 结果 未 必 会 像 想 象 中 的 那样 。 例 如 ， 假 设 为 某 服务 器 的 eth0 
分 配 了 192.168.0.1/24， 为 ethl 分 配 了 192.168.0.2/24。 这 时 如 果 从 其 他 
机 器 给 这 些 地 址 发 送 ping， 这 些 地 址 都 能 正常 返回 应 答 。 但 是 ， 如 果 
拔 掉 eth0 的 LAN 网线， 即使 ethl 的 LAN 网 线 连接 正常 ， 也 无 法 与 
192.168.0.2 通信 了 。 确 认 一 下 ARP 表 就 会 得 知 这 些 地 址 都 被 分 配 了 
eth0 的 MAC 地 址 。 也 就 是 说 ， 即 使 实际 使 用 了 两 块 网 卡 ， 实 际 上 也 只 
有 一 块 网 卡 可 以 进行 通信 。 


分 配 了 多 个 IP 地 址 的 服务 器 路 由 选择 表 (Routing Table) 如 图 6.2.5 所 
示 。 像 这 样 在 对 同一 网 络 使 用 多 个 入 口 的 情况 下 ， 基 于 路 由 选择 表 上 的 
规则 ， 发 往 192.168.0.0/24 的 数据 包 必 须 从 eth0 发 出 。 这 种 行为 是 不 考 
网 卡 链 路 状态 的 ， 即 使 未 连接 LAN 网 线 ， 也 会 尝试 从 eth0 发 送 数据 








# route -n 
Kernel IP routing table 
Destination Gateway Genmask Flags Metric Ref Use Iface 


192.168.6.6 0.0.0.0 255.255.255.6 U 6 6 8 eth6 < 肯定 使 月 
192.168.6.6 0.0.0.0 255.255.255.6 U 6 6 6 _ eth1 < 不 会 使 月 








图 6.2.5 使 用 多 块 网 卡 时 的 路 由 选择 表 
如 果 关 闭 发 往 eth0 的 路 由 选择 表 ， 虽 然 可 以 使 用 eth1 与 其 他 服务 右 通 
信 ， 但 此 时 必须 清空 ARP 缓存 列表 ， 或 者 从 ethl 发 送 Gratuitous ARP 
通知 MAC 地 址 的 变更 。 因 此 在 网 卡 的 见 余 处 理 中 ， 必 须 进行 以 下 处 
理 : 

。 确认 网 卡 的 链 路 状态 

。 如 果 链 路 失效 ， 则 切换 网 卡 


。 发送 Gratuitous ARP 


驱动 绑 定 实现 了 这 些 功能 。 如 果 在 虚拟 接口 上 (bond0 等 ) 注册 的 物理 
接口 (eth0、eth1 等 ) 发 生 链 路 故障 ， 就 会 自动 切换 到 链 路 正常 的 网 卡 
并 发 送 GratuitousARP。 这 个 功能 对 接 入 到 二 层 交 换 机 的 元 余 网 络 来 说 
非常 方便 。 

DRBP 实现 故障 转移 时 的 注意 事项 

存储 服务 器 使 用 DRBD 进行 了 元 余 ， 但 是 在 发 生 故 障 进行 故障 转移 时 
有 几 点 需要 注意 。DRBD 中 有 “on-io-error”* 这 个 配置 项 目 。 在 人 硬盘 和 
RAID 控制 器 出 现 故 障 导 致 物理 设备 的 访问 出 错时 ， 该 项 目 会 指定 接 下 
来 进行 什么 样 的 处 理 ， 具 体 可 以 设 定 以 下 数值 。 


。 pass_on : 通知 上 层 《〈 文 件 系 统 ) 磁盘 错误 并 继续 运行 








。panic : 内 核 朋 涡 〈Kernel Panic ) 

。 detach : 分 离 物理 设备 并 继续 运行 
默认 设 定 为 detach。 笔 者 也 基于 下 列 原因 选择 了 detach。 

。 一 旦 发 生 磁 检 错误 就 造成 内 核 朋 尝 会 让 人 感觉 过 于 极端 
发 生 磁盘 错误 时 ， 故 障 转移 是 最 为 理想 的 行为 


设置 为 pass_on 的 情况 下 ， 除 了 文件 访问 失败 的 进程 以 外 ， 其 他 
异常 都 无 法 检测 出 来 


设置 为 detach 的 情况 下 ， 因 为 能 够 立即 监控 出 异常 ， 所 以 能 够 顺 
利 进行 故障 转移 


设置 为 detach 的 情况 下 ， 操 作 系 统 能 够 照常 运作 ， 调 查 故障 明细 
时 会 较为 轻松 


。 因为 默认 为 detach， 所 以 不 修改 直接 使 用 肯定 也 没有 问题 
当主 服务 器 Primary 遭遇 磁盘 错误 时 ， 最 好 能 进行 如 下 处 理 : 
@ 主 服务 器 Primary 隔离 磁盘 (操作 系统 继续 运行 ) 








全 实施 故障 转移 的 操作 
@ 将 备用 服务 器 Secondary 升格 为 主 服务 器 Primary 
但 实际 上 往往 不 是 这 样 。 一 旦 物理 磁盘 遭遇 故障 ， 主 服务 器 Primary 会 


隔离 磁盘 继续 运行 ， 但 备用 服务 器 Secondary 则 会 发 生 内 核 骨 尝 而 终止 
运作 。 此 时 ， 各 个 服务 器 的 内 核 日 志 中 会 输出 如 图 6.2.6 所 示 的 内 容 。 








e 主 服务 器 Primary 的 日 志 

kernel: drbd1: Local IO failed. Detaching... 

kernel: drbd1: Sending NegDReply. I guess it gets messy. 
kernel: drbd1: Notified peer that my disk is broken. 





e@ 备 用 服务 器 Secondary 的 日 志 

kernel: drbd1: Got NegRSDReply. WE ARE LOST. We lost our up-to-date disk. 
kernel: Kernel panic - not syncing: drbd1: Got NegRSDReply. WE ARE 

LOST. We lost our up-to-date disk. 








图 6.2.6 ”磁盘 故 隐 时 的 内 核 日 志 
如 果 主 服务 器 Primary 对 设备 进行 了 隔离 操作 ， 就 会 同 备用 服务 器 
Secondary 发 送 NegDReply 信息 。 备 用 服务 器 Secondary 在 收 到 


NegDReply 信息 后 ， 就 会 发 生 内 核 骨 演 并 终止 运作 。 这 里 的 源 代码 如 代 
码 清单 6.2.1 所 示 站。 


11 这 是 drbd-0.7.25 软件 的 源码 。 


代码 清单 6.2.1 drbd/drbd_receiver.c 





STATIC int got NegRSDReply(drbd dev *mdev, Drbd Header* h) 
{ 

sector 七 Sector ; 

Drbd BlockAck Packet *p = (Drbd BlockAck Packet*)h; 


sector = be64 to cpu(p->sector); 
D_ASSERT(p->block id == ID SYNCER); 


drbd rs complete io(mdev,sector); 


drbd_ panic("Got NegRSDReply. WE ARE LOST. We lost our up-to-date disk.\n" 


// THINK do we have other options, but panic? 
// what about bio endio, in case we don't panic ?? 


return TRUE; 
} 





至 少 这 是 按照 开发 者 的 意图 运行 的 ， 所 以 并 不 能 说 有 什么 问题 。 钨 怕 开 
发 者 是 出 于 “即使 停止 也 要 保护 数据 ”的 意图 进行 实施 的 ， 但 是 如 果 让 遭 
遇 故 障 的 服务 器 Primary 继续 运行 ， 而 让 备用 服务 器 Secondary 终止 运 
行 的 话 ， 就 不 能 进行 故障 转移 的 操作 。 因 此 ， 这 里 将 on-io-error 指定 为 
panic， 让 出 现 故 障 的 服务 器 终止 运行 《磁盘 遭遇 错误 时 中 断 连 接 ) 。 


配置 SSL 加 速 器 


在 使 用 HTTPS 的 网 站 中 ， 如 果 在 Web 服务 器 上 处 理 SSL 请 求 ， 则 会 有 
性 能 降低 的 风险 。 虽 然 也 可 以 如 图 6.2.7 那样 使 用 硬件 加 速 器 来 减轻 服 
务 器 的 负载 ， 但 是 在 DSAS 中 ， 使 用 的 是 stonel 这 款 SSL 的 软件 加 速 
峡 。 


12URL http://www.gcd.org/sengoku/stone/Welcome.en.html 
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图 6.2.7 硬件 加 速 器 


硬件 加 速 器 多 为 比较 昂 贯 的 产品 ， 但 是 为 了 能 够 快速 地 进行 大 量 SSL 
的 处 理 ， 一 般 使 用 经 过 见 余 的 两 台 设 备 进行 处 理工 作 。 还 有 一 些 其 他 类 
型 的 产品 ， 如 带 有 加 速 器 功能 的 网 卡 或 PCI 卡 等 ， 直 接 插 在 Web 服务 
器 上 即 可 减轻 CPU 负载 。 但 在 使 用 stone 这 款 软件 加 速 器 时 ， 鉴 于 单 台 
服务 器 处 理 能 力 较 低 ， 所 以 会 像 图 6.2.8 那样 ， 将 请 求 分 流 到 多 台 服 务 
硕 上 进行 处 理 。 
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图 6.2.8 软件 加 速 器 


stone 在 处 理 HITPS 连接 时 ， 将 复合 的 HITP 请 求 经 由 负载 均衡 器 传递 
给 了 Web 服务 器 。 因 此 在 该 结构 中 进行 转 接 时 ， 源 IP 地 址 会 成 为 加 速 
器 的 IP 地 址 ， 所 以 某 些 IP 地 址 的 情况 下 就 可 能 会 遇 到 访问 受到 限制 的 
问题 。 因 此 ， 需 要 将 stone 的 配置 改 为 像 代 码 清单 6.2.2 那样 ， 并 将 客 
户 端 卫 地 址 嵌入 到 HTTP 消息 头 的 “X-Orig-Client:* 中 。Web 服务 器 通 
过 查看 这 个 消息 头 就 能 知道 实际 上 是 从 何 处 发 出 请 求 的 了 。 


代码 6.2.2 stone 的 配置 


-Z default 
-Zz sid ctx='ssl.example.com:443"' 
-Zz CApath=/usr/local/etc/ssl/certs/ 


-Zz Cert=/usr/local/etc/ssl/cert.pem 
-Z key=/usr/local/etc/ssl1/priv.pem 
11s:86/proxy 443/ssl 'X-Orig-Client: \a' -- 





在 Web 应 用 程序 中 ， 有 时 还 需要 辨别 客户 端 是 通过 HTTP 连接 的 还 是 
通过 HTTPS 连接 的 。 如 果 是 通过 HTTPS 连接 的 ， 则 Apache 的 
mod_ssl 中 会 将 环境 变量 设置 为 HTTPS=on。PHP、Tomcat 等 AP 服务 器 
将 根据 这 个 环境 变量 进行 判断 ， 但 是 如 果 请 求 经 由 stone 的 话 ， 全 部 连 
接 都 会 变 成 HTTP 连接 ， 所 以 这 里 在 配置 文件 httpd.conf 中 添加 如 代码 
清单 6.2.3 所 示 的 设 定 。 


代码 清单 6.2.3 ”Apache 的 配置 


<IfModule mod_setenvif.c> 
SetEnvif Remote Addr "^192\.168\.1\." HTTPS=on 


SetEnvif X-Orig-Client "^$" I!HTTPS 
</IfModule> 





Remote_Addr 会 与 运行 有 stone 的 服务 器 的 地 址 进行 匹配 ， 同 时 设 定 
HTTPS=on。 接 下 来 ， 查 看 X-Orig-Client， 若 此 处 为 空 就 表示 不 经 由 
stone， 然 后 清除 环 填 变 量 。 这 样 一 来 ， 束 只 限 在 经 由 stone 连接 的 情况 
下 ， 才 会 进行 HTTPS=on 的 设 定 。 


扩展 健康 检查 功能 
由 于 在 DSAS 的 负载 均衡 右 中 使 用 了 keepalived 工具 ， 因 此 可 以 通过 添 


加 keepalived 的 补丁 《〈keepalived-extcheck) 3 对 健康 检查 功能 进行 扩 
展 。 








13 关 于 keepalived-extcheck， 请 参考 如 下 链接 (日文 )。 
URL http://d.hatena.ne.jp/hirose31/20090929/1254154720 








通过 应 用 此 keepalived-extcheck， 就 可 以 进行 如 下 健康 检查 。 


。FTP_CHECK : 检查 FTP 服务 器 是 否 能 应 答 NOOP 命令 


e。 DNS_CHECK : 检查 DNS 服务 器 是 否 能 返回 响应 
。SSL_HELLO : 检查 服务 器 是 否 能 应 答 SSL 握手 


keepalived 中 还 添加 了 MISC_CHECK 功能 ， 据 此 来 进行 一 些 原 本 不 支 
持 的 健康 检查 。 有 具体 来 说 就 是 调用 外 部 命令 ， 由 结束 代码 取得 健康 检查 
的 结果 ， 但 这 里 又 会 出 现 以 下 问题 ; 


。 i 因此 消耗 的 性 能 成 本 会 
比较 


。 如 果 命 令 没 能 目 己 终止 ， 进 程 会 不 断 增 加 并 累积 得 越 来 越 多 


关于 DNS 和 FTP 的 健康 检查 ， 可 以 在 进行 MISC_CHECK 后 做 出 如 代 
码 清单 6.2.4 那样 的 配置 。 但 是 如 果 健 康 检查 的 周期 比较 短 ， 比 如 检查 
周期 是 几 秒 钟 的 时 候 ， 调 用 外 部 命令 就 相对 比较 困难 。 因 此 我 们 可 以 像 
代码 清单 6.2.5 那样 ， 修 改 keepalived 本 身 。 这 样 相 较 于 
MISC_CHECK， 可 以 大 幅 减 少 健康 检查 的 性 能 成 本 。 


代码 清单 6.2.4 通过 MISC_CHECK 对 DNS 和 FTP 进行 健康 检查 




















real server 192.168.1.1 53 { 
MISC CHECK { 
misc path "/usr/bin/dig +time=661 +tries=2 0192.168.1.1 localhost.1local 
misc timeout 5 
} 
} 


real server 192.168.1.1 21 { 
MISC CHECK { 
misc path "echo -en 'NOOP\r\nQUIT\r\n' | nc -w 5 -n 192.168.1.1 21 | eg 
misc timeout 5 
} 
} 





代码 清单 6.2.5 通过 扩展 的 功能 对 DNS 和 FTP 进行 健康 检查 





real server 192.168.1.1 53 { 
DNS_CHECK { 
port 53 
timeout 5 


retry 3 
type A 
name localhost.localdomain 
} 
} 
real server 192.168.1.1 21 { 
FTP_CHECK { 
host { 
connect _ ip 192.168.1.1 
connect port 21 
} 
connect timeout 5 
retry 3 
delay_before retry 5 





通过 keepalived 中 的 SSL_GET 可 以 取得 HTTPS 网 站 的 状态 代码 。 但 需 





要 留意 的 是 每 次 健康 检查 时 都 要 进行 加 密 通 信 ， 这 样 就 产生 了 一 个 问 
题 ， 那 就 是 在 使 用 HTTPS 的 时 候 ， 不 能 同时 使 用 需要 进行 客户 端 认 证 
的 页 面 以 及 非 HTTPS 的 协议 (SMTPS 等 ) 。 


用 补丁 扩展 的 SSL_HELLO 会 尝试 进行 SSL 握手 来 检查 服务 器 是 否 发 
送 证 书 。 因 为 此 处 并 不 依赖 于 应 用 软件 协议 ， 所 以 也 能 适用 于 需要 客户 
端 认证 的 网 站 ， 以 及 SSL 加 速 器 的 健康 检查 。 另 外 ， 因 为 这 里 不 进行 
加 密 通 信 ， 所 以 还 具有 不 加 重 服务 器 负载 的 好 处 。DSAS 使 用 了 
SSL_HELLO 进行 stone 的 健康 检查 。 


既 方 便 又 安全 地 使 用 负载 均衡 需 


负载 均衡 器 的 维护 工作 的 主要 是 “配置 虚拟 服务 器 ?和 ?分 配 真 实 服务 

器 ”两 种 。 这 项 工作 实际 上 就 是 修改 配置 文件 〈keepalived.conf) 。 但 是 
当 网 站 或 服务 器 数量 不 断 增 多 时 ， 将 变 得 很 难 直接 编辑 4。 因 此 就 需要 
建立 能 够 方便 且 安 全 地 维护 配置 文件 的 机 制 。 








4 现在 DSAS 的 keepalived.conf 有 2500 行 以 上 。 





首先 ， 忽 略 keepalived.conf 的 语法 ， 只 考虑 维护 时 需要 什么 接口 。 维 护 
负载 均衡 右 的 目的 其 实 就 是 在 真实 服务 右上 对 虚拟 服务 器 进行 增加 、 缩 
减 或 改变 分 配 资源 等 工作 。 为 了 恰当 地 进行 分 配 管理 ， 必 须 能 够 直观 地 








掌握 目前 具体 哪个 网 站 分 配 到 了 哪 一 个 真实 服务 器 。 为 此 ， 这 里 就 写 了 
如 下 的 配置 文件 。 最 左边 的 w101、w102 是 真实 服务 器 的 主机 名 称 ， 
SiteA、SiteB 是 网 站 名 称 〈“ 虚 拟 服务 器 ) 。 这 个 文件 用 Klab 的 术语 来 说 
就 叫 作 “MATRIX”。 该 名 字 的 由 来 是 “因为 像 数学 中 的 矩阵 模型 ”。 


: SiteA 
: SiteA SiteC 
: SiteB SiteC 


: SiteB SiteC 
: SiteB 





格式 看 起 来 很 简单 ， 但 这 里 的 格式 到 底 是 “网 站 名 称 : 服务 器 服务 器 ”好 
呢 ? 还 是 “服务 器 : 网 站 名 网 站 名 ”好 呢 ? 笔者 着 实 纠 结 了 一 段 时 间 。 如 
果 是 要 掌握 “给 哪 一 个 网 站 分 配 了 哪 一 个 服务 器 >， 显然 前 者 更 容易 理 
解 。 但 是 ， 实 际 上 大 多 情况 下 都 是 在 服务 器 出 现 故障 导致 配给 到 网 站 的 
资源 失衡 ， 或 者 移 至 其 他 服务 器 时 编辑 MATRIX 的 。 例 如 当 w103 出 现 
故障 ， 需 要 切换 至 备用 服务 器 w106 时 ， 如 果 这 是 后 者 的 情况 ， 因 为 只 
需 调换 w103 及 w106 行 ， 所 以 只 进行 一 次 剪 切 & 粘贴 即 可 ; 但 如 果 是 
前 者 的 话 ， 就 必须 将 字符 串 “w103” 置 换 为 “w106” 才 行 。 因 此 ， 在 
I 中 表示 “哪个 服务 器 为 哪个 网 站 提供 支撑 * 时 采用 了 后 者 的 格 

工 No 


之 后 貌似 只 需 参 照 MATRIX 的 格式 来 编写 生成 keepalived.Conf 的 脚本 
就 可 以 了 ， 但 是 因为 MATRIX 中 不 包括 有 关 虚 拟 服务 器 的 信息 ， 所 以 
除 此 之 外 还 需要 写 一 个 如 代码 清单 6.2.6 那样 的 定义 文件 。 这 里 使 用 了 
YAML 格式 来 记录 配置 虚拟 服务 器 所 需 的 参数 。DSAS 通过 目 喘 的 Perl 
脚本 读 取 MATRIX 和 这 个 定义 文件 ， 其 后 使 用 Template-Toolkit 就 可 以 
生成 keepalived.conf 了 。 代 码 清 单 6.2.7 是 Template-Toolkit 的 模板 。 


代码 清单 6.2.6 ”虚拟 服务 器 的 定义 











PROJECT: SiteA 
SERVICE : 


- 10.0.0.1:80 
lb _algo: lc 
lb kind: DR 


protocol: TCP 


HEALTH_TYPE: HTTP_GET 


HTTP_GET : 
path : /health.html 
status code: 200 
connect port: 80 


connect timeout: 5 





代码 清单 6.2.7 ”keepalived.conf 的 模板 


virtual server group [% PROJECT %] { 
[% FOREACH S=SERVICE -%] 
[% S.replace(':','" ') %] 
[% END -%] 
} 
virtual server group [% PROJECT %] { 
lb_algo [% lb_algo %] 
lvs_ method [% lb kind %] 
protocol [% protocol %] 
[% FOREACH R=REAL -%] 
real server [% R %] [% real port %] { 
weight 1 
inhibit on failure 
[% SWITCH HEALTH_TYPE -%] 
[% CASE 'HTTP_GET' -%] 
HTTP_GET { 
url { 
path [% HTTP_GET.path %] 
status code [% HTTP_GET.status code %] 
} 
connect port [% HTTP_GET.connect port %] 
connect timeout [% HTTP_GET.connect timeout %] 
} 
[% CASE 'TCP_CHECK' -%] 
TCP_CHECK { 
connect port [% TCP_ CHECK.connect port %] 
connect timeout [% TCP_ CHECK.connect timeout %] 


} 
[% END -%] 


[% END -%] 
} 





keepalived.conf 中 必须 根据 所 分 配 的 服务 器 台数 来 描述 real_server 部 


分 ， 这 里 使 用 模块 引擎 可 以 更 加 方便 并 安全 地 生成 该 文件 。 代 码 清单 
6.2.8 就 是 自动 生成 的 keepalived.conf。 


代码 清单 6.2.8 ”上 自动 生成 的 keepalived.con 


virtual server group SiteA { 
106.0.0.1:80 
} 
virtual server group SiteA { 
lb _algo lc 
lvs_method DR 
protocol TCP 
real server 192.168.0.1 80 { 
weight 1 
inhibit on failure 
HTTP_GET { 
url { 
path /health.html 
status code 266 
} 


connect_ port 80 


connect timeout 5 


} 


} 
real server 192.168.0.2 80 1{ 


weight 1 
inhibit on failure 
HTTP_GET { 
url { 
path /health.html 
status_ code 266 
} 
connect_ port 80 
connect timeout 5 








通过 进行 如 上 操作 ， 在 服务 器 需要 进行 分 配 调整 时 ， 只 需 编辑 MATRIX 
并 执行 特定 脚本 区 可 以 了 ， 并 不 需要 从 庞大 的 keepalived.conf 中 找 出 变 
更 的 部 分 来 手动 修改 配置 。 


处 理会 话 数据 





在 负载 分 流 环境 中 ， 鉴 于 用 户 在 浏览 不 同 页 面 时 ， 连 接 到 的 未 必 是 同一 
个 服务 器 ， 因 此 不 能 在 服务 器 本 地 文件 里 保存 会 话 数据 ， 而 必须 保存 在 
类 似 数据 库 和 NFS 那样 的 云端 上 ， 这 样 才 能 保证 Web 服务 器 可 以 获取 
到 相应 的 资源 ， 但 是 由 于 数据 库 和 NFS 在 访问 集中 时 容易 成 为 瓶颈 ， 
因此 不 适合 用 来 保存 频繁 更 新 的 会 话 数据 。 


关于 会 话 数 据 的 处 理 ， 下 面 将 对 “memcached” 和 “repcached” 进 行 说 明 。 
memcached 


我 们 最 初 将 高 速 缓存 服 务 器 的 “memcached” 作 为 会 话 存储 (Session 
Storage) 来 使 用 ， 但 是 因为 memcached 没有 复制 同步 等 功能 ， 无 法 备 
份 会话 内 容 ， 因 为 一 旦 丢失 会 话 数据 (通常 为 会 员 登 录 或 退出 时 的 会 话 
信息 ) ， 就 会 为 在 线 的 会 员 带 来 困扰 。 


另外 ， 会 话 数据 一 旦 丢失 ， 势 必 会 对 用 户 产 生 一 些 影响 。 人 例如， 用户 在 
进入 下 一 页 面 时 突然 返回 到 主页 ， 或 者 丢失 所 输入 的 数据 等 。 为 此 ， 除 
了 使 用 memcached 以 外 ， 还 在 NFS 服务 器 上 使 用 RamDisk 工具 优化 了 
DRBD， 这 样 就 可 以 在 重视 性 能 的 情况 下 选择 memcached， 在 重视 安全 
性 的 情况 下 选择 RamDisk。 类 似 上 述 这 样 ， 可 以 根据 目前 生产 环境 的 情 
况 来 选择 合适 的 会 话 存储 方式 。 


但 是 ， 对 Web 应 用 程序 来 说 ， 实 现 会 话 存 储 的 切换 会 很 腑 烦 ， 结 果 大 
多 数 情况 下 都 只 使 用 了 通过 DRBD 宛 余 处 理 后 的 RamDisk。 虽 说 这 里 
已 经 使 用 了 RamDisk 优化 ， 但 终究 还 是 NFS 服务 器 ， 为 了 消除 已 经 过 
期 的 会 话 数据 ， 必 须 定期 运行 垃圾 收集 器 (Garbage Collector) 等 ， 另 
外 访问 集中 时 还 容易 造成 瓶颈 的 出 现 。 














repcached 


memcached 在 性 能 和 便利 性 方面 非常 出 色 。 由 于 没有 复制 功能 而 无 法 使 
用 ， 实 在 是 有 些 可 惜 ， 于 是 便 开 发 了 为 memcached 添加 复制 功能 的 


repcachedl 。 





了 5 关于 repcached 的 详情 ， 请 参考 如 下 链接 。 
URL http://book.51cto.com/art/201202/314930.htm 





repcached 的 运行 情况 如 图 6.2.9 所 示 ， 两 台 服 务 器 为 一 组 ， 双 同 同步 数 


据 。 无 论 在 其 中 任何 一 个 服务 器 中 进行 数据 的 设 定 ， 都 能 保存 到 双方 的 
服务 器 中 。 

repcached repcached 
复制 


Key3 [Key5 








SET/GET SET/GET 


图 6.2.9 repcached 的 运行 情况 


如 图 6.2.10 所 示 ， 即 使 一 边 停止 工作 了 ， 数 据 也 能 整个 保存 下 来 ， 所 以 
Web 服务 器 只 需 改变 运行 中 的 repcached 连接 ， 即 可 像 什么 事 都 没有 发 
生 一 样 继续 处 理 。 


repcached 











SET/GET 





图 6.2.10 发 生 故 障 时 的 行为 


运用 memcached 的 服务 器 集群 ， 可 以 癌 多 个 服务 器 进行 负载 分 流 ， 以 
及 在 发 生 故 障 时 切换 到 备用 服务 器 ， 所 以 即使 不 投入 新 的 已 经 安装 了 
repcached 的 服务 器 ， 安 装 有 memcached 的 服务 器 也 可 以 实现 大 部 分 的 
功能 。 


6.2.4 DSAS 的 未 来 


DSAS 系统 是 以 “根据 情况 智能 地 分 配 服务 器 资源 为 目标 命名 的 ， 但 在 
目前 的 DSAS 系统 中 ， 还 尚未 完全 实现 “智能 地 〈Dynamic) 分 配 服务 需 
资源 "”。 如 果 只 邮 其 名 而 不 知 其 原委 ， 可 能 会 对 其 有 更 好 的 印象 ， 例 如 
认为 它 是 可 以 根据 流量 或 连接 数目 动 修改 服务 需 避 构 的 系统 、 服 务 器 损 
坏 时 目 动 切换 为 备用 机 的 系统 等 。 


“Dynamic” 有 时 还 可 能 会 被 理解 为 “自动 ”的 意思 。 确 实 ,， “Dynamic 
Routing Protocol” 能 够 自动 改写 路 由 信息 ，“Dynamic DNS?” 能 够 自动 配置 
IP 地 址 。 而 且 ，DHCP 的 首 字母 也 是 “Dynamic”， 所 以 想必 大 家 

对 “Dynamic” 这 个 词 都 有 个 大 致 印象。DSAS 也 将 尽 可 能 地 不 训 负 当初 
的 期 望 ， 努 力 做 到 名 副 其 实 。 














根据 流量 的 增加 智能 分 配 服务 占 资 源 古 个 很 有 趣 的 诬 题 ， 而 且 当 服务 器 
出 现 故 障 时 上 自动 搭建 其 他 服务 器 的 元 余 结构 也 不 是 说 不 可 能 实现 。 这 样 
想 厦 想 厦 ， 慢 慢 地 就 可 能 有 些 寞 想 天 开 了 。 但 古 不 要 总 说 这 不 可 能 ， 而 
是 要 认真 考虑 怎样 才能 实现 ， 即 使 是 半 开 玩笑 也 可 以 。 在 努力 思考 的 过 
程 中 就 会 产生 一 些 想法 ， 而 这 些 想 法 在 某 些 状况 下 很 可 能 就 会 发 挥 作 
用 。 虽 然 无 法 想象 未 来 会 如 何 及 展 ， 只 布 望 能 以 “不 断 优化 的 智能 系 
统 ” 为 目标 而 努力 进步 。 








看 完了 


如 采 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编 
辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 
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